Python爬虫 - 人人贷散标

最新推荐文章于 2021-11-29 20:22:05 发布

x2hhhhhhhhhh1z

最新推荐文章于 2021-11-29 20:22:05 发布

阅读量658

点赞数

分类专栏： Python 爬虫文章标签： python python爬虫爬虫网络爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21692945/article/details/93763628

版权

前言

这次爬的网站人人贷 - 散标是一个客户要求爬的，数据一共是148w多条，不过后来发现有绝大部分是无效数据，也就是那个页面不存在，不过我看网上很多人爬这个网站都是用什么 BeautifulSoup、Selenium，首先 BeautifulSoup 提供 Cookie 应该是能爬，不过以前的页面和现在的页面有些不同，应该有点麻烦，我没试过；而 Selenium 可以直接放弃了，就一个原因，慢，你如果是爬几十个、几百个页面你也许能忍；我这次用的方法有些不同，不需要 Cookie，而且用 Scrapy 速度也挺快；（以下测试用到的网页都是 https://www.renrendai.com/loan-2996659.html）

正文

一、分析站点

在抓取每个网站前肯定是需要分析它的结构的，我随便点了一个最新的散标网页，如下图可见没登陆仅能显示一小部分信息

在这里插入图片描述
再看看其源码，毛都没有，只有登陆后才有内容，？

那可不一定哦，切换到 Network 然后刷新网页，从中获取返回的response，翻到最下面的 js 代码部分，大概400行处

可以看到有些js变量内容是unicode，然后还有用到了json解析方法，将这部分代码复制然后切换到 console 粘贴
在这里插入图片描述

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。