520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

本文利用Python分析京东近4000条口红商品数据,揭示价格区间、销量分布、热门口红品牌和店铺。结果显示,200-300元价位的口红最受欢迎,销量集中在20万以内,前三位品牌分别为MAC、颐和园同款和迪奥,销量前10店铺中京东自营占据多数。
摘要由CSDN通过智能技术生成

520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

一、案例说明

1、案例背景

520情人节,不懂送女朋友什么牌子的口红?没关系!Python 数据分析告诉你。

我们爬取了京东商城口红近 4000 条口红商品信息,并对这些口红数据进行分析,让大家买口红给女朋友时有个选择的参考,从如下几个方面去分析:

1、哪些价格区间的口红卖的最好?
2、口红销量分布情况。
3、销量前10的口红有哪些?
4、销量前10的店铺。
5、商品价格和销量的关系。

2、任务说明

通过 Python 爬虫爬取了京东上所有口红铺的数据集 jd_data.csv。

我们希望通过该数据集,针对不同的口红品牌和店铺进行统计与分析,从而能够解开我们上述疑问。

3、数据字段的说明

字段含义图:

图片

4、数据分析的流程

二、数据预处理

数据清洗

1、首先从csv文件中导入数据

import pandas as pd 
import matplotlib.pyplot as plt 

#读取数据
dataframe = pd.read_csv('jd_data.csv',encoding = 'gb18030')#这里不能使用utf-8
print(dataframe.shape)
复制代码

查看下有多少行、列数据:
(3816, 6)
共有3816行,6列(上面有这六个字段说明)

2、缺失值处理

data = dataframe.dropna(how='any')
data.head()
print(data.shape)
复制代码

(3610, 6)
从这里可以看出还是有些缺失值的

对于缺失值的处理主要有两种方法:

删除

填充:分为均值、中位数、众数、附近值进行填充,还有牛顿差值法等等。
这里偷一下懒,使用比较简便的删除的方式处理缺失值,毕竟缺失的不是很多。

# inplace=True表示原地修改数据集  
data.dropna(axis=0, inplace=True)   
  
# 对删除后缺失值后的数据集,再次进行缺失值统计  
data.isnull().sum(axi
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值