gooseeker“定位不到网页位置。请选择菜单“规则”->“刷新网页结构”后再试 ”;gooseeker爬取的数据出现数据覆盖 ;将xml转为excel可读的xlsx;gooseeker翻页爬取数据

此处以新浪网酿酒行业股票数据爬取为例(股票网页都是实时变化的,动态性极高)
1)酿酒行业的股票信息爬取(因为gooseeker以前实验使用过,所以此处不再详细介绍基本步骤,会更多的介绍本人踩过的坑)
a、输入网址并创建规则
在这里插入图片描述

b、进行内容映射(因为股票网站时实时性非常高的网站,刷新速度非常快,所以此次要先点击左上角规则里进行页面冻结,再进行内容映射)
在这里插入图片描述
否则会出现:
在这里插入图片描述
页面冻结后即可:
在这里插入图片描述

c、进行样例复制(此处需要将整理箱的网页内容定位改为绝对定位,因为某些属性的class结构太相似,导致后面的属性爬的都是同一个数据,导致数据错误
在这里插入图片描述
测试的正确结果:(如果你测试时显示“抓取规则为空…”,问题可能在于你冻结页面的时候已经进行了内容映射,解决方法:可以删除规则再从头按照我的步骤来就行了)
在这里插入图片描述
错误结果:提示:后面的数据全被最新价给覆盖了,而且不绝对定位,有时后面的新一个里的名称项也显示不出来,此处爬取的酿酒业股票就是这样

           <代码>sh600059</代码>
           <名称>古越龙山</名称>
           <最新价>8.23</最新价>
           <涨跌额>8.23</涨跌额>
           <涨跌幅>8.23</涨跌幅>
           <买入>8.23</买入>
           <卖出>8.23</卖出>
           <昨收>8.23</昨收>
           <今开>8.23</今开>
           <最高>8.23</最高>
           <最低>8.23</最低>
           <成交量 手>8.23</成交量 手>
           <成交额 万>8.23</成交额 万>

e、存规则并爬取数据(此处gooseeker爬取出来的是xml文件,需要将其转为为excel文件,此时需要登陆gooseeker的会员中心,选择数据管理,将刚刚爬取出来的xml压缩成zip,再点击导入xml,导入成功后即可点击导出数据,此时导出的数据下载后进行解压就可得到xlsx文件。
在这里插入图片描述
在这里插入图片描述
2)、接下来再介绍一点翻页爬取数据:
步骤:
a、点击爬虫路线并新建线索
b、选择连续翻页,选择记号线索
c、然后点击浏览器里的“上一页”或者“下一页”,总之就是翻页的地方,此时会定位到一个位置,此时不用点进去选择text文字进行映射,先将定位到的位置进行翻页映射为线索1(你的线索名),再点击进去选择text,将text映射为记号线索
e、可以点击测试,然后保存规则,进行数据爬取
在这里插入图片描述

最后,无论是否能帮助到您,感谢您的阅读!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值