pandas处理机器学习中的训练数据

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_20177327/article/details/81051170

1、pandas读取csv

neg_data = pd.read_csv('negative.csv')

2、查看前10行数据

neg_data.head(10)

3、查看数据的长度

len(neg_data)

4、删除某些列,需使用axis=1指定删除的对象是列(axis=0指定的是行),使用inplace = True将删除后的结果替换原来的dataframe

neg_data.drop(['finish_timestamp', 'destPoint_timestamp'], axis=1, inplace = True)

5、删除某个字段包含空值的行

#找出空值所在的行
neg_data['time_gap'].isnull().value_counts()
#填充为999
neg_data['time_gap'] = neg_data['time_gap'].fillna('999')
#将值为999的行删除
#neg_data[(neg_data.time_gap == '999')].index.tolist()
#删除这些行,inplace=True的作用是将删除结果作用于原始dataframe中
neg_data.drop(neg_data[(neg_data.time_gap == '999')].index.tolist(), inplace=True)

6、添加一列label

neg_data['label'] = 0

没有更多推荐了,返回首页