algorithm principle/原理
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
机器学习之随机森林(R)randomFordom算法案例
1.随机森林原理介绍 随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵原创 2017-01-17 10:27:15 · 15583 阅读 · 3 评论 -
损失函数是机器学习里最基础|:损失函数的作用
前言:损失函数是机器学习里最基础也是最为关键的一个要素,通过对损失函数的定义、优化,就可以衍生到我们现在常用的机器学习等算法中损失函数的作用:衡量模型模型预测的好坏。正文:首先我们假设要预测一个公司某商品的销售量:X:门店数 Y:销量我们会发现销量随着门店数上升而上升。于是我们就想要知道大概门店和销量的关系是怎么样的呢?我们根据图上的点描述出一条直线:似乎这个直...原创 2016-12-27 10:45:48 · 18173 阅读 · 3 评论 -
开源|LightGBM基本原理,以及调用形式
久前微软 DMTK (分布式机器学习工具包)团队在 GitHub 上开源了性能超越其他 boosting 工具的 LightGBM 知乎上有近千人关注“如何看待微软开源的 LightGBM?”问题,被评价为“速度惊人”,“非常有启发”,“支持分布式”,“代码清晰易懂”,“占用内存小”等。GBDT : GBDT (Gradient Boosting Decision Tree) 是机...原创 2018-04-24 18:08:48 · 6122 阅读 · 0 评论 -
GBDT分解形式理解,整理中2018-5-10
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。GBDT主...原创 2018-05-10 13:10:13 · 606 阅读 · 0 评论 -
随机森林(Random Forest) 参数解读
基本原理随机森林(Random Forest)基本原理参考:https://blog.csdn.net/hhtnan/article/details/54580994#A. max_features:随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。 下面是其中的几个:Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情...原创 2018-05-08 11:33:57 · 12138 阅读 · 1 评论 -
python数据预处理之将类别数据转换为数值的方法
在进行python数据分析的时候,首先要进行数据预处理。有时候不得不处理一些非数值类别的数据,嗯, 今天要说的就是面对这些数据该如何处理。目前了解到的大概有三种方法:1,通过LabelEncoder来进行快速的转换;2,通过mapping方式,将类别映射为数值。不过这种方法适用范围有限;3,通过get_dummies方法来转换。import pandas as pdf...原创 2018-05-08 12:16:36 · 15997 阅读 · 0 评论 -
XGBOOST从原理到实战:二分类 、多分类
1.XGBoostxgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Sungrid Engine等各个平台上面...原创 2018-07-17 12:49:05 · 45528 阅读 · 1 评论 -
数学建模过程中的特征选择:scikit-learn--Feature selection(特征选择)
sklearn.feature_selection模块的作用是feature selection,而不是feature extraction。Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要。剔除那些不重要的指标。sklearn.feature_selection模块中主要...原创 2018-07-23 11:33:24 · 3566 阅读 · 0 评论 -
通过sklearn 实现LabelEnconder 编码,之后进行xgboost预测。
通过sklearn 实现babel 编码,之后进行xgboost预测。 LabelEncoder() 更多编码操作可以参考:链接直通车from sklearn.preprocessing import LabelEncoderfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport ...原创 2018-08-18 11:11:03 · 1880 阅读 · 0 评论 -
自然语言处理算法之cw2vec理论及其实现(基于汉字笔画)
转载:请注明出处https://blog.csdn.net/HHTNAN相关论文下载:cw2vec: (Learning Chinese Word Embeddings with Stroke n-gram Information) 与2016年facebook提出的论文(Enriching Word Vectors with Subword Information)直通车全国知识图谱与...原创 2018-08-18 12:35:42 · 3975 阅读 · 5 评论 -
sklearn 下常用模型分类算法简单调用对比(借鉴),SKlearn 中clf模型保存于调回
数据为近红外测试猕猴桃软硬和时间差异的数据,可以作为分类软硬以及前后时间差的分类。数据资源:直通车# coding=gbk ''''' 测试''' import time from sklearn import metrics import pickle as pickle import pandas as pd # Multinomial Nai...原创 2018-08-16 17:53:44 · 2047 阅读 · 3 评论 -
推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别
概念个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。 为什么要个性化推荐? - 商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品 - 浏览大量无关的信息和产品,信息过载问题,用户难以获取所需要的信息分类基于内容的推荐根据用户的历史数据,推荐用户感兴趣的产品。 1. 产品表示: 为每个item 抽取出一些 特...原创 2018-03-28 16:10:53 · 2079 阅读 · 0 评论 -
皮尔森类似度(Pearson Similiarity)计算举例与数学特性和存在问题
Pearson Similiarity皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。 皮尔森相关系数计算公式...原创 2018-04-10 15:43:08 · 3218 阅读 · 0 评论 -
随机森林基本原理
基础内容:这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial,与Information Gain Tutorial。Moore的Data Mining Tutorial系列非常赞,看懂了上面说的两个内容之后的...转载 2017-01-17 10:48:04 · 13013 阅读 · 4 评论 -
基于R语言利用QQ群进行数据挖掘案例整理
利用QQ群进行数据挖掘案例,数据源来源于2016年12-2017年大致一个月的QQ群基本数据,通过对聊天内容的分析,了解QQ聊天群资料了解时间,人群以及关键词,并构建相应图表、云图等,下图为本人所在提取的QQ群: 以下是R代码部分:file.data<-scan("C:/Users/admin/Desktop/数据挖掘机器学习R-hive.txt",what="",sep=...原创 2017-01-19 14:13:49 · 4970 阅读 · 0 评论 -
python 实现数据降维推荐系统(附Python源码)
主成分分析原理:请点击PCA查看#!usr/bin/env python#_*_ coding:utf-8 _*_import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#如果一个旅游网站里面有100000个注册用户,以及100个注册酒店,网站有用户通过本网站点击酒店页面的#记录数据信息A=Aij 100原创 2017-11-07 19:39:13 · 3486 阅读 · 0 评论 -
Core-periphery decomposition--核心-外围模型R代码整理
SNA中:中心度及中心势诠释(不完整代码) Core-periphery decomposition--核心-外围模型R代码整理 本文是从网易博客搬家过来的,具体模型图片无法显示,暂时通过流程直通车连接,查看,核心-边缘模型原始数据及展示(R)模型描述与R代码整理R调整后训练结果#注意:#后为注释,#控制台展示数量控制options(max.print=1000000)#加载所需开发包rea原创 2017-01-13 13:44:47 · 2503 阅读 · 0 评论 -
RNN与LSTM之间的介绍和公式梳理
最近在整理tensorflow,经常用到RNN与lSTM,故整理如下: -RNN:循环神经网络(Recurrent Neural Networks) -LSTM:长短时记忆网络(Long Short-Term Memory)在看这篇文章之前,如果之前没有接触过-神经网络,请先阅读-神经网络调优 RNNs的目的使用来处理序列数据。其在自然语言中贡献巨大,中文分词、词性标注、命名实体识别、机原创 2018-01-09 16:26:58 · 6364 阅读 · 0 评论 -
R语言之系统聚类(层次)分析之图谱形式完整版
读取数据常见错误:在读取数据过程中可能遇到以下问题,参照上一篇博客:可能遇到报错:1、Error in if (is.na(n) || n > 65536L) stop(“size cannot be NA nor exceed 65536”) : missing value where TRUE/FALSE needed没有处理数据转化距离。 2、Error in h原创 2018-02-07 16:40:02 · 19518 阅读 · 0 评论 -
python SVM 案例,sklearn.svm.SVC 参数说明
sklearn.svm.SVC 参数说明经常用到sklearn中的SVC函数,这里把文档中的参数翻译了一些,以备不时之需。本身这个函数也是基于libsvm实现的,所以在参数设置上有很多相似的地方。(PS: libsvm中的二次规划问题的解决算法是SMO)。sklearn.svm.SVC(C=1.0,kernel='rbf', degree=3, gamma='auto',coef0...原创 2018-03-09 17:02:59 · 27401 阅读 · 3 评论 -
贝叶斯篇:贝叶斯的概率推到,朴素贝叶斯分类器及Python实现
在了解贝叶算法前:要有一定的概率与数理统计基础以及注意事项条件概率首先,理解这两个公式的前提是理解条件概率,因此先复习条件概率。 P(A|B)=P(AB)P(B)P(A|B)=P(AB)P(B)P(A|B) ={ P(AB)\over P(B)}那么由条件概率出发,看一下变形出来的乘法公式: P(AB)=P(A)⋅P(B|A)=P(B)⋅P(A|B)P(AB)=P(A)⋅P(...原创 2018-03-20 18:35:47 · 1728 阅读 · 0 评论 -
贝叶斯估计中极大似然估计、拉普拉斯平滑定理以及M-估计
英文原文链接:http://www.temida.si/~bojan/probability_estimation.php 原文: Probability estimation 1 Introduction Let us assume that in an experiment we have conducted n independent trials, of which there a...原创 2018-03-27 15:44:33 · 2289 阅读 · 0 评论 -
DeepWalk模型的简介与优缺点
1、DeepWalk[DeepWalk] DeepWalk- Online Learning of Social Representations (SBU 2014)word2vec是基于序列进行embedding;但是,实际上实体之间的关系越来越复杂化、网络化。这个时候sequence embedding------>graph embedding。图的定义:G=(V,E),Evv...原创 2019-09-18 10:50:26 · 4861 阅读 · 0 评论