数据集的读取
建包:
import numpy as np
import pandas as pd
读取数据:
data = pd.read_csv(r'datingTestSet.csv',header=None)
data
效果展示:
data = pd.read_csv(r'datingTestSet.csv',header=None)
data.head(5)
效果展示:
data.tail()
data.sample()
以上两个代码都是输出信息,()里可以有数字,
区别:
data.tail()是输出末尾5行
data.sample()是随机输出一行
data.drop('id',axis=1,inplace=True)
删除读取文件表头为“id”的那一列数据,并保证整个文件还是原来那个
data.duplicated().any()
是查看数据中是否有重复的值,如果有则输出true,反之false
data.drop_duplicated(inplace=True)
删除重复的数据