machine learning
机器学习
ShellDawn
Gu-Ah
展开
-
Kaggle:程序执行时间
import timetic = time.time()#执行程序toc = time.time()print("execute time:"+str(1000*(toc-tic))+"ms")原创 2018-04-09 17:50:45 · 1225 阅读 · 0 评论 -
ML:随机森林、GBDT、XGBoost
RF、GBDT、XGBoost都属于集成学习。通过结合多个基学习器都预测结果来改善单个学习器的泛化能力。集成学习分为两大类:boosting:个体学习器之间存在强依赖关系、必须串行生成的序列化方法。bagging:个体学习器之间不存在强依赖关系,可同时生成的并行化方法。RF:提到随机森林就不得不提Bagging。Bagging简单理解为,放回抽样、多数表决。1、随机选择样本(...原创 2019-03-29 13:06:02 · 892 阅读 · 0 评论 -
ML:naive bayes
基于特征相互独立,强假设。典型的生成模型(生成模型还有隐马尔可夫链)生成模型还原联合概率分布P(X,Y),学习和收敛速度更快。判别模型直接学习条件概率P(X|Y)或决策函数f(X),往往准确率更高。先验概率P(Y)后验概率P(Y|X)朴素贝叶斯将实例分到后验概率最大的类中,等价于期望风险最小化。先验概率计算:后验概率计算:贝叶斯估计:通常在后验概率分子和分母上加一个正常...原创 2019-03-25 12:06:52 · 129 阅读 · 0 评论 -
ML:KNN
一种基本分类和回归模型关键点: K值选择、距离度量、分类决策规则原创 2019-03-25 11:01:43 · 233 阅读 · 0 评论 -
NLP:jieba和snownlp
jiebasnownlpstar10k+2k+分词模式精确模式:试图最精确分词;全模式:可以成词都扫描,但不能解决歧义;搜索引擎模式:在精确模式基础上再划分长词,用于搜索引擎分词;只处理unicode编码词性标注有有关键词抽取TF-IDF有情感分析无有文本相似度计算无BM25jieba基于前缀词典识别词汇,生成...原创 2019-03-18 09:06:36 · 1043 阅读 · 0 评论 -
DL:调优trick
优化器,例如SGD,adam学习率,乘以衰减系数dropout层,防止过拟合(第一跑模型不加dropout,后期调优在LSTM后添加dropout层)变量初始化(正交分布初始化,正态分布初始化,均匀分布初始化)训练次数(验证集loss不减少则停止)正则化(LR)预训练(word2vec)激活函数(sigmoid计算量大,饱和区梯度消失;tanh梯度消失;ReLU解决梯度消失但某些...原创 2019-03-14 21:19:03 · 139 阅读 · 0 评论 -
LSTM:对比标准RNN
RNN,recurrent neural networkLSTM,long short-term memory networkLSTM隐藏层激活函数,通常使用tanh函数。输出层使用softmax函数。RNN反向传播算法,back-propagation through timeLSTM可以学习长期依赖信息,增加遗忘门,输入门,输出门。具体见:https://www.cnblogs....原创 2019-03-14 21:04:18 · 539 阅读 · 0 评论 -
DT:决策树划分
ID3决策树,信息增益,偏好划分细的属性C4.5决策树,增益率偏好划分属性少的。所以,决策树先从属性中找高于信息增益平均水平再选增益率最高的。剪枝,解决决策树过拟合...原创 2019-03-14 17:35:06 · 327 阅读 · 0 评论 -
机器学习:LR和SVM对比
LR:logistics regressionSVM:support vector machine不同:损失函数不同J(theta) = - 1/m [ sum y* log{ h(x) } + (1 - y) * log{ 1 - h(x) } ]L(w, b ,a) = 1/2*||W||^2 - sum{ a*(y*(wt*x + b) - 1 ) }不同的loss fun...原创 2019-03-14 17:05:48 · 300 阅读 · 0 评论 -
python:libsvm-3.22
*.*optimization finished,#iter = 257 #iter为迭代次数nu = 0.351161 #nu核函数参数obj = -225.628984, rho = 0.636110#obj为二次规划求解得到的最小值#rho为判决函数的偏置项bnSV = 91, nBSV = 49#nSV为标准支持向量个数(0,c)#nBSV为边界上的支持向量个数(c)T原创 2017-05-02 21:48:12 · 1101 阅读 · 0 评论 -
贝叶斯分类器
朴素贝叶斯分类:MultinomialNB分类器以出现次数作为特征值、GaussianNB适用于高斯分布(正态分布)的特征、BernoulliNB使用与伯努利分布(二值分布)的特征。原创 2017-05-16 15:37:45 · 332 阅读 · 0 评论 -
Kaggle 基本数据操作
import pandas as pd#文件路径file_path = '../input/xxx.csv'#读取csv格式file_data = pd.read_csv(file_path)#查看数据大致信息#count数量;mean均值;std标准差;min,25%,50%,75%,max位于各个阶段的数据;print(file_data.describe())#查看列...原创 2018-04-03 15:10:07 · 2301 阅读 · 0 评论 -
kaggle:决策树,随即森林
import pandas as pdfrom sklearn.tree import DecisionTreeRegressorfile = '../input/train.csv'data = pd.read_csv(file)y = data.SalePricepredictors = ['YearBuilt','LotArea']x = data[predictors]m...原创 2018-04-03 15:33:26 · 671 阅读 · 0 评论 -
Kaggle:均值绝对误差
from sklearn.tree import DecisionTreeRegressorimport pandas as pdfrom sklearn.metrics import mean_absolute_errorfile = '../input/train.csv'data = pd.read_csv(file)y = data.SalePricepredictors = ['原创 2018-04-03 15:56:02 · 286 阅读 · 0 评论 -
ML:激活函数和损失函数
激活函数为了去线性化sigmoid饱和区梯度近乎消失易发生梯度爆炸和梯度消失tanhReLumax(0,x)解决梯度消失收敛速度快缺点:某些神经元可能永远不会被激活leaky ReLumax(ax,x)通常a = 0.01...原创 2019-03-29 13:06:36 · 287 阅读 · 0 评论