链家网页爬虫_爬虫小技巧——以最简单的方式爬取链家房源信息

最新推荐文章于 2024-04-23 14:37:36 发布

寻古诗词网

最新推荐文章于 2024-04-23 14:37:36 发布

阅读量1k

点赞数

文章标签：链家网页爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36180068/article/details/111899983

版权

第一次在知乎写东西有点紧张，事先在ppt中做了相关记录，

接下来我就直接上ppt的截图啦

主要是考虑到近两年可能会买房，所以就对当地二手房市场做了下简单的调研，所以接下来的数据都是基于二手房信息的

第一步：选取数据源

采集规则：链家二手房_松江_50平以下

采集内容：基本信息、房型、单价、总价、周边交通等

第二步：定位标志(定义规则)

1、点击标题进行定位，做定位标志映射的节点它必须要有属性值(id或class值)，如果定位到的节点没有属性值就往上层找。在本例中，找到的div节点有属性值@class=title，可以作为定位标志值。

2、右击DIV节点，选择“定位标志映射”->“基本信息”，映射后，在整理箱的定位标志和类型这两列，可以看到title和+class，表示把@class=title的节点映射给了标题，这时，标题既有内容映射又有定位标志映射。

3、接下去就以此类推去定义自己需要的规则

第三步：设置翻页

包括两个步骤：1.设置翻页区 2. 设置翻页记号

1、设置翻页区

在当前页面，点击翻页区，发现整个翻页区变黄了，而且，在下面的DOM窗口，光标自动定位到了DIV节点，右击这个节点，选中翻页映射→作为翻页区→新建线索。

2、设置翻页记号

此时，工作台自动切换到了爬虫路线。不用理会。继续在当前网页，点击翻页按钮“下一页”。在下面的DOM区，光标自动定位到了A节点，点开A节点，寻找text节点，找到后，右击这个text节点，选中翻页映射→作为翻页记号。

第四步：存规则，抓数据

1、点击GS浏览器上的“存规则“按钮，保存规则。点击浏览器上的“爬数据“按钮，或者到打数机，启动采集，在DS打数机里看翻页是否成功，翻页采集成功的话，在本地DataScraperWorks文件夹中会生成多个xml文件。

第五步：查看数据结果

1、打数机采集下来的数据保存在哪里？在DS打数机的文件菜单->存储路径中可以找到文件路径。采集成功的话，网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中。

2、在对应主题名的文件夹中会看到成功采集的xml文件，xml文件是对应网页生成的，一页会生成一个xml文件。

3、xml文件可以用浏览器、记事本、excel打开，通过一些工具可以转为其他文件格式。例如：用集搜客会员中心的数据管理功能可以转换为excel格式

这五个步骤就简单的完成了相关的数据采集，让各位看官见笑了。总体来说还是相对比较简单的。

这只是第一步，数据采集，那么接下去就是如何对已经采集到的数据进行简单的分析处理了。

这是我接下去要做的事情，希望能通过一段时间的学习之后(争取一周到两周的时间)，再上知乎做一个小总结吧

寻古诗词网

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
链家网页爬虫_爬虫小技巧——以最简单的方式爬取链家房源信息

第一次在知乎写东西有点紧张，事先在ppt中做了相关记录，接下来我就直接上ppt的截图啦主要是考虑到近两年可能会买房，所以就对当地二手房市场做了下简单的调研，所以接下来的数据都是基于二手房信息的第一步：选取数据源采集规则：链家二手房_松江_50平以下采集内容：基本信息、房型、单价、总价、周边交通等第二步：定位标志(定义规则)1、点击标题进行定位，做定位标志映射的节点它必须要有属性值(id或class...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。