1、最近刚开始学习python 写了个爬虫练习,感觉主要是得会用F12查询网站结构代码。还涉及到反爬虫,每个网站都不一样,拿到的解析出的json数据格式也不同。得有些Web知识的基础才行。
https://www.bilibili.com/video/av54287470/ 视频讲解
2、上代码
import urllib.request
import time
# xpath lxml第三方包 将html转化为树形结构
from lxml import etree
# re系统包 正则
import re
"""
爬取数据方式: 1、通过网页源代码(数据绑定在html标签中)
根据目标网址绑定数据的方式决定 2、通过接口获取json(json绑定)
京东商品信息 获取目标url(开发者模式) 获取网页源代码抓取数据
搜索页面、商品子页面{获取搜索页面的所有商品 class="gl-i-wrap",所有商品的子页面【二次爬取】}
发送url获取响应数据 反爬
进行数据处理
"""
# 分页抓取手机商品信息
def jdPhone_spider(url,beginPage,endPage):
for page in range(beginPage,endPage+1):
#京东页码奇数递增处理 反爬
pn = page*2 -1
print("正