1.简单说明
本教程仅用来学习,不用于商业目的。这是第一次写文章,排版可能有点差,希望大家理解,嘻嘻。
不喜欢看分析的同学可以直接跳到最后有源代码
我们要爬的网站为:https://static1.scrape.center/
用到的库有requests、re、pyquery,不多说了直接开整。
2.网站分析
首先进入该网站后,右键-检查-Network,点Network后记得刷新(F5),然后在Name一栏点击第一个,找到User-Agent。
下面我们开始一步步写代码:
首先导入所需的库,没有的先安装;添加头部headers,也就是刚才User-Agent的内容。
import requests
from pyquery import PyQuery as pq
import re
url = 'https://static1.scrape.center/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
然后get()方法请求网页,text属性得到网页的html代码;pyquery再对它进行初始化准备解析网页:
html = requests.get(url).text
doc = pq(html)
分析网页的html代码: