1.数据准备
通过集搜客爬取淘宝护肤品信息,共1w条,包含产品描述、价格、销量、评价数量、在售商家数量。
爬虫总结:
1.先构思好分析思路,为数据源的选择提供方向
2.爬取时充分利用页面的分类等信息,能提高后面数据清洗效率
2.明确分析目的
1.各类产品的市场情况
2.各品牌的的市场情况
3.商家的下一个机会点
3.数据清洗
列名更改:方便读取
信息提取:从产品名称中提取品牌名称;销售额、销售额占比等的计算
数据分类:将产品分类;将价格按各分类分为中低端、中端、中高端、高端
格式转换:文本转为数值
清洗前:
清洗后:
4.数据分析
通过Excel透视表和MySql分析:
1.从产品维度
1.护肤品有哪些分类,各类的销售情况怎么样