在这里不进行多余的赘述,直接附上大佬比较详细的方法链接~
https://www.jianshu.com/p/011abdcee7e4
作者:终可见
来源:简书
看了前面的同学~这里附上爬取的完整代码。
# 导包
import requests
from pyquery import PyQuery as pq
import time # 延迟获取
# 给请求指定一个请求头来模拟chrome浏览器
# headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
n = 0
'''
定义一个可以获取页面数据以及提取网页源码的函数
定义一个可以获取href属性值的函数
定义一个可以查找指定元素并提取文本内容的函数
'''
def get_html(url):
# 获取页面内容)(获取数据)
r = requests.get(url)
# 提取网页源代码
html = r.text
if r.status_code == 200:
return html
else:
return "error"
def get_attr(html, sel, attr_name):
# 使用pyquery解析网页,生成pyquery对象
doc = pq(html)
link = doc(sel)
# 找到hr