python爬取新浪新闻——以新车为例

本文介绍了如何使用Python爬取新浪新闻中与‘新车’相关的内容,包括标题、发布时间、链接和作者。通过分析网页元素并使用BeautifulSoup解决乱码问题。建议初学者实践以提升网页分析能力。
摘要由CSDN通过智能技术生成

爬取新浪新闻时,主题词不同,网页格式也不一样,故在此选用“新车”为主题,爬取新浪新闻的标题、发布时间、链接、具体内容以及发布作者
爬取网址:http://auto.sina.com.cn/newcar/index.d.html

爬取代码如下:

####爬取新闻标题、发布时间、新闻链接
import requests
from bs4 import BeautifulSoup
import urllib
import sys
import importlib

'''importlib.reload(sys)
key='film'
url="http://auto.sina.com.cn/newcar/index.d.html"
data=urllib.request.urlopen(url).read().decode('utf-8')'''

for i in range(0,2):
    url="http://auto.sina.com.cn/newcar/?page="+str(i+1)
    res=requests.get(url)
    res.encoding = 'utf-8'#设置编码格式为utf-8
    soup = BeautifulSoup(res
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值