python3爬取新闻网站的所有新闻-新手起步_python3爬取新闻网站的所有新闻-新手起步...

最新推荐文章于 2024-08-03 15:58:00 发布

WebNerd

最新推荐文章于 2024-08-03 15:58:00 发布

阅读量1.3k

点赞数 1

文章标签： python3爬取新闻网站的所有新闻-新手起步

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42297665/article/details/114406836

版权

本文适合初学者，介绍如何使用Python3爬取凤凰新闻网的新闻。内容包括环境配置、理解网页结构、正则表达式、BeautifulSoup解析及递归遍历。在Windows环境下，通过urllib和Beautifulsoup库实现对新闻标题和正文的抓取，并处理编码问题。

摘要由CSDN通过智能技术生成

该篇文章适用于新手，让大家在刚接触爬虫的时候少踩点坑。作者接触python也有几个月时间了，最近要用python做数据采集的工作，因此要用爬虫去爬取各大门户网站。

好了，废话不多说，直接切入正题。

(声明：我整个工作都是在windows下进行的。)

1.环境配置。

python就够了，关于windows下环境搭建，网上教程很多。

这里我附一个。(http://www..com/windinsky/archive/2012/09/20/2695520.html)

python环境确定搭建成功，就可以开始写程序去爬虫了。

2.要明确你所要爬取的网站结构。

(1)url

爬虫，实际上就是解析页面的url，以及每个页面的标签元素(html那些)。因此，要先对你所要爬取的页面 url和内容的布局非常了解。

比如，我爬取的是凤凰网的所有新闻。凤凰网上，大部分新闻正文的页面链接，都是这种形式，ifeng前面是新闻的分类，http://news.ifeng.com/a/20170623/51308599_0.shtml。

找到了规律，就可以用正则表达式把这些页面提取出来。

关于正则表达式的学习，网上也有很多教程。这里给大家附一个比较好的链接 http://www.jb51.net/article/57150.htm

(2)页面中的标签元素

我要提取的是新闻的标题和正文内容。如前面所说，我找到了我想要的新闻页面，可以在浏览器里用F12，来观察页面布局。

比如凤凰网新闻正文页面，标题都在

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。