机器学习与数据挖掘
霸都汤抖森
这个作者很懒,什么都没留下…
展开
-
提取某个字段数据并统计其分布规律
背景:老板提供了一份txt数据集,是关于视频点播时长的统计,包括视频ID和播放时长两个数据变量,部分数据格式如下: “视频id” “播放时长” “00000000020000047018” “00:29:59” “00000000020000047031” “00:34:59” “00000000040001292551” “01:05:00” “000000原创 2016-07-28 23:15:28 · 2917 阅读 · 1 评论 -
标准写入、写出文件
读取.csv格式文件总是出错, 改用标准格式可以解决问题def wr(filename): fr = open(filename) lines = fr.readlines() f = open('result002.csv','wb') for line in lines: line = line.strip().split(',') f.writ原创 2016-08-24 11:37:42 · 429 阅读 · 0 评论 -
数据挖掘实战之 K-means算法
K-means 算法作为聚类算法中比较重要的入门算法, 1.算法具体过程如下 创建k个点作为起始质心(经常是随机选择) 当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 ·对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇 对每一个簇,计算簇中所有点的均值并将均值作为质心原创 2016-12-21 11:03:52 · 677 阅读 · 0 评论 -
数据集预处理,划分为测试数据集合验证数据集
在一个数据集中随机选出80%的记录作为训练数据集,训练得到相应的数学模型之后,将剩余的20%的记录作为验证,测试模型的准确性。原有数据集形式: 1::1193::5::978300760 1::661::3::978302109 1::914::3::978301968 1::3408::4::978300275 1::2355::5::978824291 1::1原创 2016-12-25 13:50:46 · 9826 阅读 · 0 评论