这是我自己写的一个爬取百度新闻的一个代码,欢迎大家多来讨论,谢谢!(自己已经测试可以使用,在文章最后见效果图)
'''
re模板:2.2.1
requests模板:2.18.4
bs4模板:4.6.0
json模板:2.0.9
爬取百度新闻所有的新闻的前1页 标题和URL地址
'''
import requests
import json
from bs4 import BeautifulSoup
import re
#获得每页新闻标题和新闻地址
def getPageInfo(url,page):
newurl=url + str(page)
res = requests.get(newurl)
jd = json.loads(res.text)
list1 = jd['data']['list']
it = i