Python
追梦不止,静心致远
谦谦君子,虚怀若谷
展开
-
NLP︱LDA主题模型的应用难题
NLP︱LDA主题模型的应用难题 将LDA跟多元统计分析结合起来看,那么LDA中的主题就像词主成分,其把主成分-样本之间的关系说清楚了。多元学的时候聚类分为Q型聚类、R型聚类以及主成分分析。R型聚类、主成分分析针对变量,Q型聚类针对样本。 PCA主要将的是主成分-变量之间的关系,在文本中LDA也有同样的效果,将一撮词(变量)变成话题(主成分),同时通过画像主成分,可以知道人群喜欢什么样子转载 2017-03-23 21:13:15 · 4615 阅读 · 2 评论 -
实战from GBDT to Xgboost
这一系列主要是对DT、RF的简单介绍,以及对GBDT源码(Python)分析,然后成功搭建Xgboost工具,最后通过简单demo实例熟悉Xgboost建模过程。 1.Decision Tree 决策树从一根节点出发,通过找到最优的分割点,不断地将样本集分裂生成子节点,直到满足停止条件为止(或直到每个节点足够“纯”为止)。 如何选择最优划分属性方法:信息增益(ID3)、信息率(C4.5)原创 2017-06-16 22:00:02 · 1305 阅读 · 0 评论 -
Python快速开发入门重点笔记
 为了做机器学习项目,从零开始学习Python,本文重在新手快速入门,其中首选python科学计算环境——Anaconda,机器学习项目之前一般有3-4天快速学习新的语言时间,然后从项目中边做边学。下面是我结合结合结合一些Python入门相关书籍和资料做的笔记,希望对于新手有帮助。 Anoconda环境安装下载地址:http://continuum.io/downloads 安装非常简单,原创 2017-06-14 20:42:57 · 613 阅读 · 0 评论