python3+urllib撸新浪滚动新闻爬虫

需求:

爬取全部新浪新闻

切入点:

这里写图片描述
这里写图片描述
新浪新闻主页组织很杂,但是通过观察可知,新浪滚动新闻中罗列了所有新闻,而且可以通过类别或日期选择查看,所以,要想爬取所有新闻,我们把切入点变为:

爬取新浪滚动新闻(腾讯新闻等其他新闻网站也是如此)

分析网页

进入新浪滚动新闻页面:

新浪滚动新闻

http://roll.news.sina.com.cn/s/channel.php?ch=01#col=89&spec=&type=&ch=01&k=&offset_page=0&offset_num=0&num=60&asc=&page=1

查看网页源代码:

这里写图片描述

居然可以看到一条条a标签的新闻,简直方便了spider!

然而高兴太早,后

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值