本文是《机器学习从零到掌握》系列之第3篇
本篇使用的数据存放在文本文件datingTestSet2.txt中,每个样本数据占据一行,总共有1000行。
样本主要包含以下3中特征:
(1)每年获得飞行常客里程数
(2)玩视频游戏所耗时间百分比
(3)每周消费的冰淇淋公升数
在使用分类器之前,需要将处理的文件格式转换为分类器所接受的格式。
下边代码用来处理输入格式问题:该函数的输入为文件名字符串,输出为训练赝本矩阵和类标签向量。该函数可以作为格式处理函数,在具体例子中稍加改动即可。
代码里已经有详细的注释说明,如有不懂可以留言一起交流。
file2matrix.py