1、导入模块
from pandas import DataFrame,Series
import pandas as pd
import numpy as np
from fuzzywuzzy import process
from fuzzywuzzy import fuzz
2、读取数据
data=pd.read_csv('携程旅游数据.csv',header=None,names=['信息简介','旅游方式','出发地点','供应商','公司','评分','出游人数','点评','价格','标签'])
data
3、查看数据
发现出游人数中数据少了
data.info()
4、删除无用字段
#删除无用字段
data=data.drop(['旅游方式','出发地点'],axis=1)
data
5、去除重复项,删除空行,重置索引
data.drop_duplicates(inplace=True) #在原有的基础上去除重复项
data=data.dropna(axis=0,how='any') #删除全部含有空的行
data=data.reset_index(drop