链家网页爬虫_爬虫小技巧——以最简单的方式爬取链家房源信息

第一次在知乎写东西有点紧张,事先在ppt中做了相关记录,

接下来我就直接上ppt的截图啦

主要是考虑到近两年可能会买房,所以就对当地二手房市场做了下简单的调研,所以接下来的数据都是基于二手房信息的

第一步:选取数据源

采集规则:链家二手房_松江_50平以下

采集内容:基本信息、房型、单价、总价、周边交通等

第二步:定位标志(定义规则)

1、点击标题进行定位,做定位标志映射的节点它必须要有属性值(id或class值),如果定位到的节点没有属性值就往上层找。在本例中,找到的div节点有属性值@class=title,可以作为定位标志值。

2、右击DIV节点,选择“定位标志映射”->“基本信息”,映射后,在整理箱的定位标志和类型这两列,可以看到title和+class,表示把@class=title的节点映射给了标题,这时,标题既有内容映射又有定位标志映射。

3、接下去就以此类推去定义自己需要的规则

第三步:设置翻页

包括两个步骤:1.设置翻页区 2. 设置翻页记号

1、设置翻页区

在当前页面,点击翻页区,发现整个翻页区变黄了,而且,在下面的DOM窗口,光标自动定位到了DIV节点,右击这个节点,选中翻页映射→作为翻页区→新建线索。

2、设置翻页记号

此时,工作台自动切换到了爬虫路线。不用理会。继续在当前网页,点击翻页按钮“下一页”。在下面的DOM区,光标自动定位到了A节点,点开A节点,寻找text节点,找到后,右击这个text节点,选中翻页映射→作为翻页记号。

第四步:存规则,抓数据

1、点击GS浏览器上的“存规则“按钮,保存规则。点击浏览器上的“爬数据“按钮,或者到打数机,启动采集,在DS打数机里看翻页是否成功,翻页采集成功的话,在本地DataScraperWorks文件夹中会生成多个xml文件。

第五步:查看数据结果

1、打数机采集下来的数据保存在哪里?在DS打数机的文件菜单->存储路径中可以找到文件路径。采集成功的话,网页数据会以xml文件形式保存在电脑的DataScraperWorks文件夹中。

2、在对应主题名的文件夹中会看到成功采集的xml文件,xml文件是对应网页生成的,一页会生成一个xml文件。

3、xml文件可以用浏览器、记事本、excel打开,通过一些工具可以转为其他文件格式。例如:用集搜客会员中心的数据管理功能可以转换为excel格式

这五个步骤就简单的完成了相关的数据采集,让各位看官见笑了。总体来说还是相对比较简单的。

这只是第一步,数据采集,那么接下去就是如何对已经采集到的数据进行简单的分析处理了。

这是我接下去要做的事情,希望能通过一段时间的学习之后(争取一周到两周的时间),再上知乎做一个小总结吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值