数据背后的秘密
找不到这双鞋子的销售数据怎么办?
曲线救国,通过评论数据间接得到鞋子的销售数据
如何找到评论区内容背后的URL?
(1)鼠标右击选择检查,打开程序员调试窗口,点击network(网络)
(2)刷新当前页面
(3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜?,粘贴
(4)点击刷新小圆圈?查找
(5)点击查询结果的第二行,跳转到对应的请求
(6)点击Headers,找到Request URL即几评论区数据背后的URL
3行代码爬取京东数据
梳理代码流程:
(1)引入Python工具包requests
(2)使用工具包中的get方法,向服务器发起请求
(3)打印输出请求回来的数据(print语法)
Python代码解析数据
如何解析这堆杂乱无章的数据?
(1)打开网页工具 www.json.cn
(2)将数据整理成Json格式:以大括号开头和结尾
(3)找到目标数据值对应的名字
Python replace语法
replace为替换的意思,可以使用replace把任何不想要的数据替换成一个新值
4行代码带数据回家
引入Python整理数据的工具包 json、获取鞋子颜色及鞋码数据
学会引入openpyxl工具包存储数据?
(1)创建一个Excel表格
(2)创建一个sheet
(3)在sheet里面保存数据
(4)把表格保存在一个磁盘里
import requests
import openpyxl
import json
wk = openpyxl.Workbook()
sheet = wk.create_sheet()
req = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100010560687&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
content = req.text
rest = content.replace('fetchJSON_comment98(',' ').replace(');',' ')
json_data = json.loads(rest)
comments = json_data['comments']
for item in comments:
color = item['productColor']
size = item['productSize']
sheet.append([color,size])
wk.save('data/792923.xlsx')