数据挖掘,机器学习
文章平均质量分 75
江海成
加高自己的技术壁垒:业务业务业务,锻炼业务敏感性,理解业务需求,给出解决方案
展开
-
曼哈顿距离,欧式距离,余弦距离
1.曼哈顿距离曼哈顿距离,叫出租车距离的。具见上图黄线,应该就能明白。计算距离最简单的方法是曼哈顿距离。假设,先考虑二维情况,只有两个乐队 x 和 y,用户A的评价为(x1,y1),用户B的评价为(x2,y2),那么,它们之间的曼哈顿距离为2.欧式距离欧式距离又称欧几里得距离或欧几里得度量(Euclidean Metric),以空间为基准的两点之...转载 2017-03-13 16:11:56 · 29854 阅读 · 2 评论 -
数据挖掘而之数据清洗
数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。 (美亚搜data cleaning的结果,可以看到这书还挺贵) 我将在这篇文章中,尝试非常浅层次的梳理一下数据清洗过程,供各位参考。 照例,先上图:转载 2017-03-14 09:28:48 · 1270 阅读 · 0 评论