【Python】爬虫爬取各大网站新闻（一）

最新推荐文章于 2024-08-03 15:58:00 发布

may-bee

最新推荐文章于 2024-08-03 15:58:00 发布

阅读量5.6w

点赞数 10

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/jie310300215/article/details/50990167

版权

本文记录了一位作者在学习机器学习时，为获取数据而进行的Python爬虫实践。作者首先介绍了爬取新闻作为机器学习数据集的背景，接着详细讲述了爬取过程，包括初步爬取、遇到的挑战如代理服务器、HTTP状态码和速度问题，以及相应的解决方案。最后，作者分享了初步运行的结果，成功爬取了多个网页并解析出新闻数据。

摘要由CSDN通过智能技术生成

作者简历地址：http://resume.hackycoder.cn

Python爬虫一步一步爬取文章

背景

最近在学习机器学习算法，分为回归，分类，聚类等，在学习过程中苦于没有数据做练习，就想爬取一下国内各大网站的新闻，通过训练，然后对以后的新闻做一个分类预测。在这样的背景之下，就开始了我的爬虫之路。

网站分析

国内各大新闻网站汇总（未完待续）：

搜狐新闻：

时政：http://m.sohu.com/cr/32/?page=2&_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2
社会：http://m.sohu.com/cr/53/?page=2&_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2
天下：http://m.sohu.com/cr/57/?_smuid=1qCppj0Q1MiPQWJ4Q8qOj1&v=2

总的网址：http://m.sohu.com/cr/4/?page=4     第一个4代表类别，第二个4代表页数

网易新闻

推荐：http://3g.163.com/touch/article/list/BA8J7DG9wangning/20-20.html      主要修改20-20
新闻：http://3g.163.com/touch/article/list/BBM54PGAwangning/0-10.html
娱乐：http://3g.163.com/touch/article/list/BA10TA81wangning/0-10.html
体育：http://3g.163.com/touch/article/list/BA8E6OEOwangning/0-10.html
财经：http://3g.163.com/touch