数据提取
在我之前的文章Scrapy自动爬取商品数据爬虫里实现了爬虫爬取商品网站搜索关键词为python的书籍商品,爬取到了60多页网页的1260本python书籍商品的书名,价格,评论数和商品链接,并将所有商品数据存储到本地的.json文件中。数据存储格式如下:
爬虫爬取到的商品数据
接下来对爬取到的商品数据作预处理及可视化分析,使用工具为Anaconda的Jupyter notebook和python3.6环境。首先用python将爬取到的数据输出为.csv文件,方便观察和保存再利用。观察第1260个数据可以发现价格格式为“¥46.60”,评论数格式为“301条评论”,都为字符串格式,要先分别转换为数字格式“46.60”和“301”以方便处理。
import jsonimport csvimport numpy as npyimport pandas as pda#读取.json文件dic=[]f = open("D:/python/.../getdata.json", 'r',encoding='utf-8')#这里为.json文件路径for line in f.readlines(): dic.append(json.loads(line))#对爬取到的数据作处理,将价格和评论数由字符串处理为数字 tmp=''name,price,comnum,link=[]for i in range(0,1260): dic[i]['price']=tmp + dic[i]['price'][1:] dic[i]['comnum']=dic[i]['comnum'][:-3]+tmp price.append(float(dic[i]['price'])) comnum.append(int(dic[i]['comnum'])) name.append(dic[i]['name']) link.append(dic[i]['link'])data = numpy.array([name,price,comnum,link]).Tprint (data)
这里将爬取的数据都作处理后,转换为python科学计算库的numpy.array格式,data输出结果如下: