python爬虫实例手机_小白也能懂的python爬虫入门案例

最新推荐文章于 2022-04-10 17:30:03 发布

weixin_39538451

最新推荐文章于 2022-04-10 17:30:03 发布

阅读量114

点赞数

文章标签： python爬虫实例手机

此文属于入门级级别的爬虫，老司机们就不用看了。

本次主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。

首先我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。

那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击 Network，我们一直往下拉，发现右侧出现了："… special/00804KVA/cm_guonei_03.js? … "之类的地址，点开Response发现正是我们要找的api接口。

可以看到这些接口的地址都有一定的规律：“cm_guonei_03.js”、“cm_guonei_04.js”，那么就很明显了：

http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

上面的链接也就是我们本次抓取所要请求的地址。

接下来只需要用到的python的两个库：

requestsjsonBeautifulSoup

requests库就是用来进行网络请求的，说白了就是模拟浏览器来获取资源。由于我们采集的是api接口，它的格式为json，所以要用到json库来解析。BeautifulSoup是用来解析html文档的，可以很方便的帮我们获取指定div的内容。

下面开始编写我们爬虫：

第一步先导入以上三个包：

u=2047295168,2241635868&fm=173&app=25&f=JPEG?w=640&h=441&s=EDBAAD54ACEE5E0D5851C479020050B3

接着我们定义一个获取指定页码内数据的方法：

u=4247891762,353938291&fm=173&app=25&f=JPEG?w=640&h=371&s=EDBAA5573F2C4C0D1AD5707A0200D031

这样子就得到每个页码对应的内容列表：

u=3350381802,775682620&fm=173&app=25&f=JPEG?w=640&h=365&s=E2F031C44BAC844D581DB4810300B093

之后通过分析数据可知下图圈出来的则是需要抓取的标题、发布时间以及新闻内容页面。

既然现在已经获取到了内容页的url，那么接下来开始抓取新闻正文。

在抓取正文之前要先分析一下正文的html页面，找到正文、作者、来源在html文档中的位置。

我们看到文章来源在文档中的位置为：id = “ne_article_source” 的 a 标签。作者位置为：class = “ep-editor” 的 span 标签。正文位置为：class = “post_text” 的 div 标签。

下面采集这三个内容的代码：

u=4155799958,3661468902&fm=173&app=25&f=JPEG?w=639&h=377&s=E59AA5771F2C540D40417D7A02005030

到此为止我们所要抓取的所有数据都已经采集了。

那么接下来当然是把它们保存下来，为了方便我直接采取文本的形式来保存。下面是最终的结果：

u=1812234870,1434850434&fm=173&app=25&f=JPEG?w=639&h=302&s=E0C29140DAA5904B5EF5140E0200E0C3

格式为json字符串，“标题” ： [ ‘日期’， ‘url’， ‘来源’， ‘作者’， ‘正文’ ]。

要注意的是目前实现的方式是完全同步的，线性的方式，存在的问题就是采集会非常慢。主要延迟是在网络IO上，下次可以升级为异步IO，异步采集，有兴趣的可以关注下次的文章。

通过本次练手，各位应该会对爬虫有一个入门级的了解。

希望新手们能动手自己练一练(老司机就算了)，毕竟只有自己动手了才能确定自己到底是会还是不会。

喜欢的话点个关注吧！欢迎转发哦！

weixin_39538451

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫实例手机_小白也能懂的python爬虫入门案例

此文属于入门级级别的爬虫，老司机们就不用看了。本次主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。首先我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击 Network，我们一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。