机器学习
文章平均质量分 85
weijinqian0
邮件:1184188277@qq.com
展开
-
逻辑回归和朴素贝叶斯有啥区别
转载 2018-07-12 20:08:46 · 1211 阅读 · 0 评论 -
随机森林算法
随机森林算法梳理集成学习的概念集成学习使用多个分类器,发挥各个个体学习器的优点,实现多样性,从而实现较好的拟合效果。目前分位三种继承学习:boosting、bagging以及stacking。个体学习器的概念个体学习器是集成学习中的子概念,是指集成学习中使用的子学习器。个体学习器需要保持多样性,这样才能发挥集成学习的优势。怎么样发挥个体学习器的多样性呢?增加数据样本扰动。对于不稳定的...原创 2019-08-07 22:50:31 · 1228 阅读 · 0 评论 -
提升树与GBDT
GBDT(Gradient Boosting Decison Tree)全称:梯度提升决策树。提升树核心思想拟合残差怎么拟合残差?使用boosting技术,对残差使用决策树进行拟合(比如:CART)使用加法模型,将拟合好的决策树相加,后面会有伪代码贴图。伪代码网上找的。。。提升树伪代码M:决策树个数;Rm,i:残差GBDT伪代码:与上面提升树的差别:残差使用负梯度...原创 2019-07-16 13:36:28 · 252 阅读 · 0 评论 -
IMDB数据集分析源码+本地数据集(task1)
ps:由于下载数据集太慢,所以采用了本地下载数据集的方式读取文本。代码中涉及的数据处理是把Keras中的代码拿过来用的。中间加了自己的注释和理解,仅供参考。后面希望能写成一个系列代码:https://github.com/weijinqian0/nlp...原创 2019-06-22 00:11:55 · 1591 阅读 · 0 评论 -
最好的入门自然语言处理(NLP)的资源清单
最好的入门自然语言处理(NLP)的资源清单Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单。目录:· 在线课程· 图书馆和开放资源· 活跃的博客· 书籍· 数据集· NLP之社交媒体· 其它displaCy网站上的可视...转载 2019-05-08 17:59:18 · 550 阅读 · 0 评论 -
理解dropout
理解dropout注意:图片都在github上放着,如果刷不开的话,可以考虑翻墙。转载请注明:http://blog.csdn.net/stdcoutzyx/article/details/4902244312开篇明义,dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故而每一个mini...转载 2019-03-25 20:43:41 · 385 阅读 · 0 评论 -
机器学习与数据挖掘中的十大经典算法
转载https://www.cnblogs.com/liulunyang/p/3868808.html参考可见 https://blog.csdn.net/fuqiuai/article/details/79482487 一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,...转载 2019-01-16 14:32:26 · 2444 阅读 · 0 评论 -
EM算法原理总结
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断等等。本文就对EM算法的原理做一个总结。1. EM算法要解决的问题 我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。 但是在一些情况下,我们得...转载 2019-01-07 22:01:38 · 343 阅读 · 0 评论 -
深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
在求取有约束条件的优化问题时,拉格朗日乘子法(Lagrange Multiplier) 和KKT条件是非常重要的两个求取方法,对于等式约束的优化问题,可以应用拉格朗日乘子法去求取最优值;如果含有不等式约束,可以应用KKT条件去求取。当然,这两个方法求得的结果只是必要条件,只有当是凸函数的情况下,才能保证是充分必要条件。KKT条件是拉格朗日乘子法的泛化。之前学习的时候,只知道直接应用两个方法,但是却...转载 2018-08-02 17:51:06 · 293 阅读 · 0 评论 -
关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化
一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式: 使用sklearn.preprocessing.scale()函数,可以直接将给定数据进行标准化。 ...转载 2018-08-02 13:05:12 · 476 阅读 · 0 评论 -
参数学习算法和非参数学习算法区别
总结:1:non-parametric algorithm:Locally weighted linear regression algorithm2:parametric learning algorithm:The (unweighted) linear regression algorithm对于线性回归算法,一旦拟合出适合训练数据的参数θi’s,保存这些参数θi’s,对于之后的...转载 2018-07-19 13:12:25 · 2625 阅读 · 0 评论 -
GBDT
前向分布算法在Adaboost算法中,我们的最终目的是通过构建弱分类器的线性组合:f(x)=∑m=1MGm(x) f(x)= \sum_ {m=1}^{M}G_{m}(x) f(x)=m=1∑MGm(x)加法模型的表达式为:f(x)=∑m=1Mβmb(x;γm)f(x)= \sum_ {m=1}^{M}\beta _{m}b(x; \gamma_{m})f(x)=m=1∑Mβmb(...转载 2019-08-09 23:33:48 · 382 阅读 · 0 评论