python大数据挖掘系列之淘宝商城数据预处理实战

最新推荐文章于 2024-04-16 04:08:40 发布

可可爱爱的程序员

最新推荐文章于 2024-04-16 04:08:40 发布

阅读量1k

点赞数

分类专栏：程序员文章标签：数据挖掘数据分析 python

本文链接：https://blog.csdn.net/qq_60168783/article/details/121825648

版权

本文介绍了使用Python进行淘宝商品数据预处理的实战经验，包括数据来源、数据清洗方法，如缺失值和异常值处理。通过数据中位数和均值填充价钱为0的记录，以及通过散点图识别并处理异常值。分析了商品价格与评论数的关系，为商品定价提供依据。

摘要由CSDN通过智能技术生成

在上一章节https://blog.csdn.net/qq_60168783/article/details/121824746

我们聊了python大数据分析的基本模块，下面就说说2个项目吧,第一个是进行淘宝商品数据的挖掘，第二个是进行文本相似度匹配。好了，废话不多说，赶紧上车。

淘宝商品数据挖掘

数据来源：

自己写个爬虫爬吧，爬到后入库（mysql）。

数据清洗：

所谓的数据清洗，就是把一些异常的、缺失的数据处理掉，处理掉不一定是说删除，而是说通过某些方法将这个值补充上去，数据清洗目的在于为了让我们数据的可靠，因为脏数据会对数据分析产生影响。拿到数据后，我们进行数据清洗分为两方面：

缺失值发现：可以查找
异常值发现：画图分析

缺失值：在下载数据、搜集数据的时候刚好就缺失。可以通过查找的方法去发现。
异常值：不一定就是异常，可能就是客观存在，但是这个值对于总的数据来说是一个就比较特殊点。可以通过画散点图发现。

这两方面的处理方法如下：

缺失值处理：均值/中位数插补、固定值、临近插补、回归分析、插值法（拉格朗日插值，牛顿插值）
异常值处理：视为缺失，平均值修正，不处理。

方法解释：

均值/中位数插补：在缺失位置插入一个总数据的均值或者中位数。
固定值：：在缺失位置插入一个固定值
临近插补：看这个缺失位置附近的值是什么，就把附近的某一个值插到缺失位置，这类应用场景应用于物以类聚的场景
回归分析：等日后用上的时候在研究。
插值法：此算法复杂，暂未研究，等日后用上的时候在研究。
视为缺失：可以看成缺失值，然后通过缺失值来处理。
平均值修正：通过平均值来替代这个值
不处理：不处理这个值

开始分析：

表结构介绍：

淘宝商品表结构如下：

title：商品名称
link：商品URL
price：商品价钱
comment：商品评论数量

mysql> desc taob;
+---------+-------------+------+-----+---------+-------+
| Field   | Type        | Null | Key | Default | Extra |
+---------+-------------+------+-----+---------+-------+
| title   | varchar(50) | YES  |     | NULL    |       |
| link    | varchar(60) | NO   | PRI | NULL    |       |
| price   | int(30)     | YES  |     | NULL    |       |
| comment | int(30)     | YES  |     | NULL    |       |
+---------+-------------+------+-----+---------+-------+复制代码

对于上面四个字段，比较好处理的就是价钱和评论数，比如价钱是0（没有采集到的数据），可以通过刚才平均值或者中位数来填充，对于异常值，比如某个评论10W+，那么也可以采用平均值修正。

Python环境介绍：

依赖于pymysql,numpy,pandas,matplotlib，请自己先安装。可以参考我上篇博文：www.cnblogs.com/liaojiafa/p…

拿代码说话：