爬取新浪新闻时,主题词不同,网页格式也不一样,故在此选用“新车”为主题,爬取新浪新闻的标题、发布时间、链接、具体内容以及发布作者
爬取网址:http://auto.sina.com.cn/newcar/index.d.html
爬取代码如下:
####爬取新闻标题、发布时间、新闻链接
import requests
from bs4 import BeautifulSoup
import urllib
import sys
import importlib
'''importlib.reload(sys)
key='film'
url="http://auto.sina.com.cn/newcar/index.d.html"
data=urllib.request.urlopen(url).read().decode('utf-8')'''
for i in range(0,2):
url="http://auto.sina.com.cn/newcar/?page="+str(i+1)
res=requests.get(url)
res.encoding = 'utf-8'#设置编码格式为utf-8
soup = BeautifulSoup(res