机器学习
彼得纲
应用统计小硕,数据挖掘方向,侧重机器学习算法的应用。目前Python是主力语言,R用的少,在看Java,也在点分布式计算(Hadoop、Spark)方面的技能,Linux、数据结构、数据库进阶中。
展开
-
奇异值分解(SVD)
之前写的一篇博文里面介绍了PCA这个数据降维的方法,今天另一个降维方法SVD将隆重登场。本打算在写完分类算法之后再写SVD的相关博文,碰巧今天早上刷今日头条的时候看到了腾讯的微票儿平台用的特征工程算法竟然就有SVD(另一个是卷积神经网络CNN),再加上之前就发现SVD在推荐系统中很受欢迎,那今天就简单介绍下这个工业界特征过程的宠儿-----SVD。 SVD是Singular Va原创 2016-01-06 11:11:12 · 552 阅读 · 0 评论 -
关联分析-Apriori算法
本人最早对数据挖掘的印象是在大三的时候听老师讲过啤酒和尿布的故事:美国一家大型零售商发现,很多男性客户的购买记录中啤酒和尿布常常同时出现。数据背后的原因是很多年轻的爸爸在下班回家后受妻子的嘱托给孩子买尿布,顺便买几瓶啤酒犒劳犒劳自己。这应该是关联分析最有名的一个例子了。Apriori算法目前是数据挖掘中简单关联规则技术的核心算法,它包括两个部分:1.产生频繁项集 2.依据频繁项集产生简单关联规原创 2016-01-05 12:09:08 · 499 阅读 · 0 评论 -
K近邻算法
这篇博客也是自己以前在新浪上写的,搬算法思想:在存在训练样本集(已知数据以及相应的分类标签)的基础上,输入没有分类标签的新数据后,将新数据的每个特征与训练样本集中的对应每个特征进行比较,然后提取样本集中特征最为相似的数据分类标签,作为新数据的对应分类标签。一般情况下,我们选择训练样本集中与输入数据欧式距离最短的k个数据,最后选择k个数据中出现次数最多的分类,作为新数据的分类。p原创 2015-12-26 12:53:40 · 415 阅读 · 0 评论 -
Logistic回归
以前在新浪上写博客的,研一开学一直忙,博客没更,考虑到CSDN是专业的技术平台,把博客搬家到这里。进入正题:算法思想: 二项logistic回归模型是一种分类模型,服从如下的条件概率分布: P(Y=1|x)=exp(w.x)/(1+exp(w.x)) P(Y=0|x)=1/(1+exp(w.x))原创 2015-12-20 16:13:59 · 369 阅读 · 0 评论 -
分类器性能评估
对于二分类问题,分类器在测试数据集上的预测要么对要么错,4种情况出现的总数分别记作:1. TP(True Positive)————将正类预测为正类数2. FN(False Negative)————将正类预测为负类数3. FP(False Positive)————将负类预测为正类数4. TN(True Negative)————将负类预测为负类TP,FN,FP,TN原创 2016-03-06 15:46:07 · 772 阅读 · 0 评论 -
随机森林
随机森林(Random Forest)是Ensemble methonds中的一种。Ensemble methods对于训练集正负样本比例极不平衡问题的训练效果非常好,泛化能力很强(本人亲测),还包括GBDT、AdaBoost等算法。 随机森林,顾名思义,就是用随机的方式建立一个森林,森林里面由很多决策树组成,每棵树相互独立。随机森林中的如同精通某一狭小领域的专家,个人认为这是对随原创 2016-02-24 22:41:11 · 1079 阅读 · 0 评论 -
GBDT算法
之前的很多算法(SVM、朴素贝叶斯等)的学习心得都没有来的及写。由于学校一个横向项目需要(酒店需求预测)考虑使用GBDT来做回归,今天就先写GBDT的心得体会。这个算法是目前我接触到的算法当中比较难的一个了,但据说效果超级好,毕竟Kaggle竞赛的必备算法哈。GBDT(Gradient Boosting Decision Tree)是Ensemble methonds中的一种。Ensemb原创 2016-03-04 23:14:44 · 1237 阅读 · 0 评论 -
Kaggle竞赛优胜者源代码剖析(一)
比赛题目链接:https://www.kaggle.com/c/amazon-employee-access-challenge优胜者Github:https://github.com/pyduan/amazonaccess 该题目提供的数据集特征数较少,能拿到比赛的头名足以见得需要利用业务知识不断地进行变量转换创建新变量。作者用到的算法也是Kaggle中很常规的LR、GBD原创 2016-03-26 19:28:10 · 8012 阅读 · 1 评论