携程数据清洗
导入模块
from pandas import DataFrame,Series
import pandas as pd
import numpy as np
# FuzzyWuzzy 简单易用的字符串模糊匹配工具
from fuzzywuzzy import process
from fuzzywuzzy import fuzz
读取数据
df=pd.read_csv('携程/携程旅游数据.csv',names=['信息','旅游方式','出发地','供应商','公司','评分','出游人数','点评','价格','标签'])
df.info()
df.head(1)
# 删除旅游方式 和 出发地 列
df=df.drop(['旅游方式','出发地'],axis=1)
df.head(2)
# 删除重复项
df.drop_duplicates(inplace=True)
# 查看 去重后还有多少条数据
df.shape
(7311, 8)
# 删除所有为 nan 的行
df.dropna(inplace=True)
# 查看 删除空值后还有多少条数据
df.shape
(7179, 8)
# 重置索引
df.reset_index(inplace=True)