1.如果第一行是数据不是列名,读取csv文件的时候要让header=None。默认header=0
2.pandas 取出表中一列数据所有的值并转换为array类型的方法:
# -*-coding: utf-8 -*- import pandas as pd #读取csv文件 df=pd.read_csv('A_2+20+DoW+VC.csv') #求‘ave_time'的平均值 aveTime=df['ave_time'].mean() #把ave_time这列的缺失值进进行填充,填充的方法是按这一列的平均值进行填充 df2=df.fillna(aveTime) #取表中的第3列的所有值 col=df2.iloc[:,2] #取表中的第3列的所有值 arrs=col.values #输出结果 print(arrs)
3.二值化。处理成01
4.特征工程,保留方差大的
5.TSNE降维算法
6.C就是做分类的