python聚类分析散点图_Python代写商品数据预处理与K-Means聚类可视化分析

本文介绍了如何使用Python对爬取的电商商品数据进行预处理,包括将价格和评论数从字符串转为数字,以及处理缺失和异常值。通过散点图和箱型图识别异常值,然后运用K-Means算法进行聚类分析,将商品分为三个类别,实现了数据的可视化分析。
摘要由CSDN通过智能技术生成

数据提取

在我之前的文章Scrapy自动爬取商品数据爬虫里实现了爬虫爬取商品网站搜索关键词为python的书籍商品,爬取到了60多页网页的1260本python书籍商品的书名,价格,评论数和商品链接,并将所有商品数据存储到本地的.json文件中。数据存储格式如下:

爬虫爬取到的商品数据

接下来对爬取到的商品数据作预处理及可视化分析,使用工具为Anaconda的Jupyter notebook和python3.6环境。首先用python将爬取到的数据输出为.csv文件,方便观察和保存再利用。观察第1260个数据可以发现价格格式为“¥46.60”,评论数格式为“301条评论”,都为字符串格式,要先分别转换为数字格式“46.60”和“301”以方便处理。

import jsonimport csvimport numpy as npyimport pandas as pda#读取.json文件dic=[]f = open("D:/python/.../getdata.json", 'r',encoding='utf-8')#这里为.json文件路径for line in f.readlines(): dic.append(json.loads(line))#对爬取到的数据作处理,将价格和评论数由字符串处理为数字 tmp=''name,price,comnum,link=[]for i in range(0,1260): dic[i]['price']=tmp + dic[i]['price'][1:] dic[i]['comnum']=dic[i]['comnum'][:-3]+tmp price.append(float(dic[i]['price'])) comnum.append(int(dic[i]['comnum'])) name.append(dic[i]['name']) link.append(dic[i]['link'])data = numpy.array([name,price,comnum,link]).Tprint (data)

这里将爬取的数据都作处理后,转换为python科学计算库的numpy.array格式,data输出结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值