Python，爬取图虫网，有你喜欢看的小姐姐私房照哦！

最新推荐文章于 2021-04-20 20:18:42 发布

随遇啊

最新推荐文章于 2021-04-20 20:18:42 发布

阅读量795

点赞数

文章标签： python

原文链接：https://www.jianshu.com/p/15e2dd81636a

版权

准备

要爬的网站是图虫网
工具：python 2.7，BeautifulSoup4

注意：BeautifulSoup4为第三方类库，如果在cmd下用pip安装报错，可直接去官网下载，解压后拷贝到python安装目录中的lib目录下，通过cmd进入插件的目录，输入python setup.py install,即可安装。

分析

爬虫的人口页为： https://tuchong.com/explore/

可以看到这页的每张图片都代表一个题材，点进去后就是这个题材下所有的相册，如下图。

打开相册后发现相册里的图片都是用js加载的，面对这种情况可以自己分析js，用Request发送请求获取数据。也可以用一些模拟js行为的库来抓取数据,但这样对cpu和内存的消耗会增大，抓取速度也很慢，如非必要建议不使用。
以下是爬虫的核心代码，先解析出所有题材的url地址，然后爬虫循环爬取每个题材的封面照片。

运行

下面让我们的爬虫跑起来，我运行在了服务器上了，大家可以直接通过浏览器访问爬取的结果。

一段时间后运行完毕，打开生成的page文件夹,看到爬虫为我们生成的html页面，可以通过下面这个url访问 (ps: 每个网页大约50M，流量党慎入。)

http://114.215.141.86/zs/spider/page/%E5%B0%91%E5%A5%B3.html

最后

这个网站很简单，不需要登录验证码，连请求头都不用写，爬虫也没有写的太暴力，只是保存了图片的url地址，并没有抓取到本地，别对人家服务器造成压力麻。

现在还有大礼包免费赠送
推荐一下我建的python学习交流扣扣qun：850973621，群里有免费的视频教程，开发工具、
电子书籍、项目源码分享。学习python web、python爬虫、数据分析、大数据，人工智能等
技术有不懂的可以加入一起交流学习，一起进步！

作者：钟声博客
链接：https://www.jianshu.com/p/15e2dd81636a
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python，爬取图虫网，有你喜欢看的小姐姐私房照哦！

准备要爬的网站是图虫网工具：python 2.7，BeautifulSoup4注意：BeautifulSoup4为第三方类库，如果在cmd下用pip安装报错，可直接去官网下载，解压后拷贝到python安装目录中的lib目录下，通过cmd进入插件的目录，输入python setup.py install,即可安装。分析爬虫的人口页为： https://tuchong.com/explore/可以看到这页的每张图片都代表一个题材，点进去后就是这个题材下所有的相册，如下图。打开相册后发现相册里的
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。