OK~一切准备就绪,let's go💪💪💪
初识python爬虫
什么是爬虫?
- 爬取网络数据的虫子(Python程序)
爬虫实质是什么呢?
- 模拟浏览器的工作原理,向服务器请求相应的数据
- 浏览器在这个过程中还起到了翻译数据的作用哦
数据背后的秘密
找不到这双鞋子的销售数据怎么办?
- 曲线救国,通过评论数据间接得到鞋子的销售数据
如何找到评论区内容背后的URL?
- (1)鼠标右击选择检查,打开程序员调试窗口,点击network(网络)
- (2)刷新当前页面
- (3)复制一小段评论区内容,然后在程序员调试窗口点击放大镜🔎,粘贴
- (4)点击刷新小圆圈🔄查找
- (5)点击查询结果的第二行,跳转到对应的请求
- (6)点击Headers,找到Request URL即几评论区数据背后的URL
3行代码爬取京东数据
梳理代码流程:
- (1)引入Python工具包requests
- (2)使用工具包中的get方法,向服务器发起请求
- (3)打印输出请求回来的数据(print语法)
-
import requests import json resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10026369237393&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1') content=resp.text print(resp.text)