【Python】爬虫爬取各大网站新闻(一)

本文记录了一位作者在学习机器学习时,为获取数据而进行的Python爬虫实践。作者首先介绍了爬取新闻作为机器学习数据集的背景,接着详细讲述了爬取过程,包括初步爬取、遇到的挑战如代理服务器、HTTP状态码和速度问题,以及相应的解决方案。最后,作者分享了初步运行的结果,成功爬取了多个网页并解析出新闻数据。
摘要由CSDN通过智能技术生成

作者简历地址:http://resume.hackycoder.cn

Python爬虫一步一步爬取文章

背景

最近在学习机器学习算法,分为回归,分类,聚类等,在学习过程中苦于没有数据做练习,就想爬取一下国内各大网站的新闻,通过训练,然后对以后的新闻做一个分类预测。在这样的背景之下,就开始了我的爬虫之路。

网站分析

国内各大新闻网站汇总(未完待续):

搜狐新闻

时政:http://m.sohu.com/cr/32/?page=2&_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2
社会:http://m.sohu.com/cr/53/?page=2&_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2
天下:http://m.sohu.com/cr/57/?_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2

总的网址:http://m.sohu.com/cr/4/?page=4     第一个4代表类别,第二个4代表页数

网易新闻

推荐:http://3g.163.com/touch/article/list/BA8J7DG9wangning/20-20.html      主要修改20-20
新闻:http://3g.163.com/touch/article/list/BBM54PGAwangning/0-10.html
娱乐:http://3g.163.com/touch/article/list/BA10TA81wangning/0-10.html
体育:http://3g.163.com/touch/article/list/BA8E6OEOwangning/0-10.html
财经:http://3g.163.com/touch
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值