电商双11美妆数据分析

1. 数据读取与初步查看

import numpy as np 和 import pandas as pd :导入常用的数据处理库NumPy和Pandas 。

df = pd.read_csv('双十一淘宝美妆数据.csv') :读取名为“双十一淘宝美妆数据.csv”的文件到DataFrame对象 df 中。

df.head() :查看数据的前五行,快速了解数据结构和内容。

df.info() :查看数据的基本信息,包括数据行数、列数、各列的数据类型以及非空值数量。

df.describe() :计算并展示数字类型列(如price、sale_count、comment_count )的统计量,如计数、均值、标准差、最小值、四分位数和最大值等。

2. 数据清洗

2.1 重复值处理

data = df.drop_duplicates(inplace = False) :删除DataFrame中的重复行,inplace = False 表示不直接在原数据 df 上操作,而是返回一个新的DataFrame对象 data 。

data.reset_index(inplace = True,drop = True) :重置行索引,drop = True 表示丢弃原来的索引。

通过对比处理前后数据的形状(shape ),发现删除了86条重复数据。

2.2 缺失值处理

观察发现 sale_count 和 comment_count 列存在缺失值。

data.loc[data['sale_count'].isnull()].head() 和 data.loc[data['comment_count'].isnull()].tail() :分别查看 sale_count 列和 comment_count 列存在缺失值的行的部分数据,了解缺失值所在行的情况。

data=data.fillna(0) :用0来填补 sale_count 和 comment_count 列中的缺失值。

data.isnull().any() :检查数据中是否还有缺失值,结果显示各列均无缺失值。

2.3 数据挖掘寻找新的特征

导入 jieba 库,这是一个常用的中文分词工具。

通过循环对 data 中 title 列的每个元素进行搜索引擎模式的分词(jieba.lcut_for_search ) ,将分词结果添加到新列表 subtitle 中,最后将 subtitle 作为新列添加到 data 中,并查看包含 title 和新列 subtitle 的前几行数据。 这一步旨在从商品标题中挖掘更多文本特征,以便后续分析。

3.数据可视化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值