python爬取新浪新闻——以新车为例

最新推荐文章于 2021-10-22 15:27:30 发布

Bystander~

最新推荐文章于 2021-10-22 15:27:30 发布

阅读量421

点赞数 2

分类专栏： python爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_43458484/article/details/102859333

版权

本文介绍了如何使用Python爬取新浪新闻中与‘新车’相关的内容，包括标题、发布时间、链接和作者。通过分析网页元素并使用BeautifulSoup解决乱码问题。建议初学者实践以提升网页分析能力。

摘要由CSDN通过智能技术生成

爬取新浪新闻时，主题词不同，网页格式也不一样，故在此选用“新车”为主题，爬取新浪新闻的标题、发布时间、链接、具体内容以及发布作者
爬取网址：http://auto.sina.com.cn/newcar/index.d.html

爬取代码如下：

####爬取新闻标题、发布时间、新闻链接
import requests
from bs4 import BeautifulSoup
import urllib
import sys
import importlib

'''importlib.reload(sys)
key='film'
url="http://auto.sina.com.cn/newcar/index.d.html"
data=urllib.request.urlopen(url).read().decode('utf-8')'''

for i in range(0,2):
    url="http://auto.sina.com.cn/newcar/?page="+str(i+1)
    res=requests.get(url)
    res.encoding = 'utf-8'#设置编码格式为utf-8
    soup = BeautifulSoup(res