用Python分析全网取暖器数据
我们使用Python获取了淘宝网搜索关键词暖气片、取暖器、壁挂炉的商品数据,并进行了数据分析。
读取数据
1
首先导入获取的数据。
# 导入工具包
import numpy as np
import pandas as pd
from pyecharts.charts import Bar, Pie, Map, Page
from pyecharts import options as opts
import jieba
# 读取数据
df_all = pd.read_csv(‘…/data/导出数据.csv’)
df_all.head()
df_all.shape
(13212, 7)
数据清洗和整理
2
此处我们需要对数据集进行数据清洗以便后续分析和可视化,主要工作内容如下:
-
删除记录的重复值
-
goods_price列处理:提取数值
-
purchase_num列处理:提取数值
-
计算销售额sales_volume = goods_price*purchase_num
-
删除多余的列
代码实现如下:
df = df_all.copy()
# 去除重复值
df.drop_duplicates(inplace=True)
df.shape
(6849, 7)
# 筛选记录
df = df[df[‘purchase_num’].str.contains(‘人付款’)]
# goods_price列处理
df[‘goods_price’] = df[‘goods_price’].str.extract(‘(\d+.{0,1}\d*)’)
df[‘goods_price’] = df[‘goods_price’].astype(‘float’)
# purchase_num列处理
df[‘num’] = df[‘purchase_num’].str.extract(‘(\d+.{0,1}\d*)’)
df[‘num’] = df[‘num’].astype(‘float’)
df[‘unit’] = [10000 if ‘万’ in i else 1 for i in df[‘purchase_num’]]
# 计算销量
df[‘purchase_num’] = df[‘num’] * df[‘unit’]
# 计算销售额
df[‘sales_volume’] = df[‘goods_price’] * df[‘purchase_num’]
# 提取省份字段
df[‘province_name’] = df[‘location’].astype(‘str’).str.split(’ ').apply(lambda x:x[0])
# 删除多余的列
df.drop([‘num’, ‘unit’, ‘detail_url’], axis=1, inplace=True)
# 重置索引
df = df.reset_index(drop=True)
df.head()
数据可视化
3
此处我们对店铺销量、产地分布、商品价格等方面进行可视化分析:
市场上的取暖器种类较多,有暖风机、小太阳、电热膜、油汀、快热炉、踢脚线等取暖设备,我们首先看到这些取暖器的标题词云。
商品标题词云图
可以看到"取暖器" “暖风机” “暖气片"都是出现的高频词。在特征方面"家用” “节能” "速热"都十分常见。
接着,看到店铺月销量排名Top10。
店铺月销量排名Top10
可以看到店铺销量前十,凯瑞莱旗舰店位居第一。其后春尚电器专营店和苏宁易购分别是第二第三名。排在前十的还有美的、tcl等品牌。
# 计算top10店铺
shop_top10 = df.groupby(‘shop_name’)[‘purchase_num’].sum().sort_values(ascending=False).head(10)
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!