机器学习
文章平均质量分 62
THEONE10211024
GitHub:https://github.com/THEONE10211024
展开
-
K Nearest Neighbor 算法
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法用来聚类,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算转载 2016-07-05 16:34:12 · 766 阅读 · 0 评论 -
数据挖掘比赛通用步骤
中文版:http://mp.weixin.qq.com/s?__biz=MzI3NTA0MzM1OQ==&mid=2651615325&idx=1&sn=d16a1f8ba5d4164606efc3a0fa416be2&scene=23&srcid=08139bhv2hyZYhdFZi1UBy6N#rd英文版:http://blog.kaggle.com/2016/07/21/approach原创 2016-08-13 19:44:55 · 1953 阅读 · 0 评论 -
基于sklearn 的one hot encoding
1.one hot编码的由来在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如在广告系统中,用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里,比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数,比如男性是0号特征,女性为1号特征。这种方式最大的优点转载 2016-08-13 12:21:15 · 4800 阅读 · 1 评论 -
看到一张比较好的关于特征工程的图
原创 2016-08-24 12:28:35 · 649 阅读 · 0 评论 -
卡方检验原理及应用
原文链接:https://segmentfault.com/a/1190000003719712卡方检验反应的是理论值与实际值之间的差异性。卡方值越大,表示理论与实际的差异越大转载 2016-08-24 11:54:56 · 3005 阅读 · 0 评论 -
如何做好机器学习——个人感悟
最近一直在研究机器学习的相关内容,也在kaggle上看了不少前辈的解答思路。作为一个刚入门的小生来说,进步的空间还很大。但是我觉得有必要把我自己对机器学习的看法和认识记录一下,不论对错。机器学习实际上就是一门与数据打交道的学科,数据在里面体现了非常重要的角色。如果要我一句话说明什么是机器学习的话,我觉得是“通过一直的数据和结论,训练一种模型出来,并根据新的数据来预测结论”。那么,如何做好机器学原创 2016-08-21 16:59:14 · 1130 阅读 · 0 评论 -
如何在 Kaggle 首战中进入前 10%
原文请见:https://dnc1994.com/2016/04/rank-10-percent-in-first-kaggle-competition/转载 2016-08-20 23:00:24 · 1689 阅读 · 0 评论 -
NumPy的详细教程
原文请见:http://blog.csdn.net/lsjseu/article/details/20359201?utm_source=tuicool&utm_medium=referral转载 2016-08-17 14:43:36 · 465 阅读 · 0 评论 -
朴素贝叶斯分类算法
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html转载 2016-07-05 17:43:38 · 519 阅读 · 0 评论 -
K-Means 算法
http://coolshell.cn/articles/7779.html转载 2016-07-05 17:41:22 · 509 阅读 · 0 评论 -
相似性度量
一、余弦相似度一个物品可以由一系列特征描述,这些特征构成了一个特征向量。余弦相似度就是通过两个特征向量的夹角来度量两个物品的相似程度。夹角范围是[0,π];当夹角∈[0,π/2),二者正相关,越小,正相关越厉害;当夹角=π/2,二者不相关;当夹角∈(π/2,π],二者负相关,且越大,负相关越厉害。计算公式:a = (x1,x2,…….xn),b=(y1,y2,……yn)一、皮尔逊积矩相关系数计算公原创 2016-12-09 12:24:52 · 979 阅读 · 0 评论