最近因为做毕业设计开始学习机器学习,这一周主要是对数据进行操作做出可视化的图来分析,另外就是学习论文中提到的一些机器学习算法。
现在仅仅是利用sklearn库中的现有方法实现训练和测试,但是由于手中现有的数据比较复杂,并不适合用线性回归的方法去拟合,所以效果并不理想。
1.首先是原始数据格式的问题:
我拿到的数据是csv格式的,用reader读进来以后是用‘\t’对每个字符分隔,每行都是list。但是这样就不能用list[1][1]这种方法对单独某条记录中的一个字段进行处理,所以就进行如下的步骤:
reader=csv.reader(file(csvfile,'rb'))
tmp=[]
for line in reader:
str="".join(line).split('\t')
tmp.append(str)
这样就变成每行的字段之间用‘,’进行分隔,可以单独提取某个字段了。但是提取的表示如下:
for i in tmp:
if i[0].find(day)<>-1:
numberoflines+=1
相当于把一行看成一个字符串数组。
2.一个去除重复的小技巧:
label0=list(s