matlab 如何使用urlread函数抓取赶集网上的租房信息

最新推荐文章于 2024-05-13 08:38:41 发布

wang_306

最新推荐文章于 2024-05-13 08:38:41 发布

阅读量2.3k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_306/article/details/25691227

版权

最近在研究urlread函数，并尝试抓取赶集网上的租房信息，特记录如下，首先上代码：

代码片段

上完代码，开始解释：

1、首先，为了加快访问速度，尝试开启了并行运算，但是并行运算过快的速度被赶集网识别了，所以只能注释掉；

2、然后，构建搜索网址，分析了赶集网租房信息的网址特征后，将它的网址按照搜索条件进行字符串组合，详见compose_all函数；

3、使用urlread函数抓取送进来网址的内容，装到str变量中，用status来判断是否装进来了；

4、使用正则表达式匹配里面的具体信息链接网址，用胞来保存；

5、使用while来判断是否所有的分页内容中的链接都已经提取完毕了；

6、如果提取完毕了就好办了，后面就是依次提取链接，读取内容，使用正则提取关键字，组合信息

PS：本来使用并行运算的时候，每秒提取速度大概在3条左右，但是被网站识别为机器人，所以只能人为的增加延迟时间，延长了程序的运行速度。尝试过使用代理服务器，奈何代理更慢，还不如开延迟。

2014/5/13号特此记录

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。