基本网页数据爬取攻略


拒绝代码,火车头采集器的多种玩法

数据获取思路

网页信息数据

网页开源信息,用计算机帮你批量获取
从第一个页面到采集信息的页面的过程有一个整体的思路。
在这里插入图片描述
在这里插入图片描述

采集利器:火车头采集器

火车头采集器(LocoySpider)是一个牛逼哄哄的多线程内容采集发布程序
主要两个功能:采集数据+发布数据
在这里插入图片描述

读懂网页结构/编写采集规则/修改采集模板

重新定义网页信息数据

信息数据/空间数据
学会读懂网页结构
链家网/安居客
推荐浏览器:chrome
在这里插入图片描述

读懂网页结构

在这里插入图片描述
在这里插入图片描述
第二页
https://wh.lianjia.com/ershoufang/pg2/
第三页
https://wh.lianjia.com/ershoufang/pg3/

以下房源就是数字对应的不同
https://wh.lianjia.com/ershoufang/104104170914.html
在这里插入图片描述
https://wh.lianjia.com/ershoufang/104104175964.html
在这里插入图片描述
可以看出参数不同,所以我们要用(*)来代替不同的东西。

接下来我们在火车头里试一试:

打开链家,查找 er手房
在这里插入图片描述
在这里插入图片描述
我们先不管选不选择区域,先试一下如何采集(火车采集器8.5)
火车采集器8.5:链接:https://pan.baidu.com/s/1ZQjDpNlSdxacOAbZyqb1tQ 密码:unzi
点开第二页的时候,就会出现 https://wh.lianjia.com/ershoufang/pg2/
pg2
点开第三页的时候, https://wh.lianjia.com/ershoufang/pg3/
pg3
在这里插入图片描述
打开房子的信息的时候,你会发现
https://wh.lianjia.com/ershoufang/104104170914.html
https://wh.lianjia.com/ershoufang/104104185321.html
只有数字在改变

编写规则,“前后截取”

火车头打开之后:会有新建任务
首先:设置“起始网址”,在起始网址中可以找到多个二级网址,也就是一级网址
在这里插入图片描述
下图就是起始网址,可以点到多个二级网址
在这里插入图片描述
(*)作用为充当变量一定要鼠标点击,不要手动输入
在这里插入图片描述
在这里插入图片描述
设置cookie是帮助你反爬取。点击“浏览器登入获取”
在这里插入图片描述
此处有显示“cookie”即刻点击确定,如果弹出“脚本错误”或“证书吊销”等相关提示,关掉即可。

编写规则,“前后截取”

两种方式读取代码和源代码
一:右键,检查,开发者模式
在这里插入图片描述
二:chrome浏览器:按F12进入开发者模式:寻找唯一标示
如下图所示,左上角的箭头,是,定位工具
开发者模式内的代码标签可以帮助你寻找源代码里对应代码的位置,例如此处的class=“room”
寻找唯一标示
使用ctrl+f
实例:在源代码中寻找3室2厅的位置,可以按快捷键ctrl+f,然后找到div class*=“room”
在这里插入图片描述
打开网页代码
在这里插入图片描述
如果出现< span class=“unitPriceValue” >12778< i >元/平米< /i >< /span >
会出现:12778 < i > 元/平米
此时要去掉< i >,就需要标签过滤。
在这里插入图片描述
如下图所示,如果采集基本信息的话,
在这里插入图片描述
繁琐却都需要的信息可以放在一个标签里爬,最后在excel里分列处理
如果只是前后的标签截取,最后会有内容的论语,如下图所示

 <div class="name">基本属性</div>
                <div class="content">
                  <ul>

 </ul>
                </div>

在这里插入图片描述
此时就需要,内容替换:将采集内容替换成你输入的内容,相当于excel里的替换
html标签过滤:自动帮你省去html标签,净化采集数据。
内容替换就是把你显示的内容,两个间距的地方进行复制,替换成别的东西,此处就是把1卫到所在楼层的之间的:空格,替换成了其他符号比如 / 。
在这里插入图片描述
结果如下:结果可以用在excel的数据清洗方面,简单。
在这里插入图片描述

如何找到经纬度数据

(一般网页上有百度地图和高德地图的显示,一般都会有经纬度的,只是找不找得到而已)
在这里插入图片描述
或者,搜索lat或者position
或者直接找到地图的代码,(看是不是这个地方)

在这里插入图片描述
上面写着,baidu,
由于是百度地图,直接搜,百度地图坐标拾取器
搜索小区的地名,
打开源代码后使用ctrl+f,搜索你所在的城市对应的经度,到小数点前一位,例如上海人民广场的经度为:121.47982,就搜121.1即可
由于一个城市跨越的京都去不是很大,这个搜索一般能覆盖小区所在的经纬度,如果能搜到,说明网页内由经纬度信息
在这里插入图片描述
在这里插入图片描述

发布规则,创建模板

CSV模板需要和第二步采集内容规则里的所有签名一模一样,否则会出现错误。用记事本打开
CSV模板一定是UTF-8编码,否则会出现爬出来的数据乱码,可以用记事本打开CSV模板另存为,在另存为内可以看到当前编码,如果不是utf-8,则改成utf-8
模板的名称和任务名尽量不要一样
接下来就是开始采集,此处的三个勾都要选,
在这里插入图片描述
如果修改了任务再次开始爬取,则需要删除已有的数据库和网址,否则软件会提示重复
在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值