DataMining/KDD
GarfieldEr007
这个作者很懒,什么都没留下…
展开
-
数据清洗的一些梳理
(欢迎转载到个人朋友圈,转载时请带原文链接,公众号和其他媒体转载前请私信联系本人获取授权)首先对@MayaG表示感谢,这篇文章是被你提的问题激发出的灵感,非常感谢~数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。(美亚搜转载 2016-05-25 16:52:26 · 19772 阅读 · 0 评论 -
数据分类:特征处理
特征处理问题1:连续特征和离散特征同时存在时如何处理?quora上有人问到了这方面的问题:What are good ways to deal with problems where you have both discrete and continous features?主要的思路是对离散的特征进行二值化处理,比如答案中举的例子:x = 价格(连续型特征) 种类类别(转载 2016-06-08 14:12:30 · 3942 阅读 · 0 评论 -
用python写一个简单的推荐系统
前言在上篇文章豆瓣电影,电视剧DM实战中提及到,我和室友们产生了剧荒,萌生出要做一个个人用的推荐系统,解决剧荒的问题,经过一轮的死缠烂打,这个个人推荐系统终于成型了。今天来分享一下心得,对此感兴趣的朋友可以自己对着写一个。传统推荐系统算法首先介绍一下传统的推荐系统方法,之所以叫它传统,是因为大部分学习资料上都是用这一个方法。我们来假设有这么一个矩阵(用pyt转载 2016-05-22 17:47:23 · 7295 阅读 · 0 评论