本次选取了kaggle上女性服装电子商务数据集,围绕客户撰写的评论。它的九个支持功能提供了一个很好的环境,可以通过多个维度解析文本。kaggle链接地址:Women's E-Commerce Clothing Reviews,该数据集包括23486行和10个特征变量。
提出问题
1.参入者的年龄分布情况?
2.参入者的购物体验如何?
3.参入者的推荐情况如何
理解数据
Age,评论者年龄
Rating,评分,从1最差到5最高,
Recommended IND,是否推荐该产品,0不推荐,1推荐
Class Name,服装类型
Clothing ID 服装ID
处理数据读取数据从csv文件获取子集,主要选取了'Clothing ID','Age','Rating','Recommended IND','Class Name'五个列名
结论,可以看出平均年龄为43,最小为18岁,最大为99岁,评论者大多分布于中年女性,评分平均4.1分,大多数为5分,得出购物体验还是比较好,绝大多数都推荐了产品,参入推荐的人还是很多,乐于参入推荐活动。
清洗数据总结
选择子集 df=df.loc[:,['index0','index1','index3']]选取需要的列
列表重命名 namedict={'index0':'a','index1':'b','index3':'c'}
df.rename(columns=namedict,inplace=True)
缺失数据处理 查看缺失值 df.isnull().sum() 删除缺失值 df=df.dropna()
数据类型转化 df['a']=df['a'].astype('int')
排序 df=df.sort_values(by='a',ascending=True)
重命名行名 df=df.reset_index(drop=True)
异常值处理 通过条件删除异常值 query=df.loc[:,'a']>0 df=df.loc[query,:]
填补缺失值 df.fillna()