因百度搜索页关键字内容改变,更新关键字增加正则表达式的编写,增加对批量内容爬取后的入库操作。另外需要注意学会修改正则里面变更后的内容,下面截图使用不同的颜色简单说明下:
import requests
import re
import pymysql
import time
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
def baidu(company):
url = 'https://www.baidu.com/s?tn=news&rtt=4&bsst=1&cl=2&wd=' + company
res = requests.get(url, headers=headers).text #请求后返回内容转text
# 正则表达式编写
p_href = '<h3 class="news-title_1YtI1"><a href="(.*?)"' #需要注