gooseeker“定位不到网页位置。请选择菜单“规则”->“刷新网页结构”后再试 ”；gooseeker爬取的数据出现数据覆盖；将xml转为excel可读的xlsx；gooseeker翻页爬取数据

最新推荐文章于 2024-04-07 23:11:25 发布

冉先森i

最新推荐文章于 2024-04-07 23:11:25 发布

阅读量610

点赞数

分类专栏： gooseeker使用问题文章标签： gooseeker出现“定位不到网页位置。请选择菜单“规则”-&gt;“刷新怎样利用gooseeker爬取实时性很高的网页 gooseeker爬取数据出现后面数据被前面数据覆盖的现象 gooseeker爬取出来的xml文件怎样转为excel的xlsx文件 gooseeker翻页爬取数据

本文链接：https://blog.csdn.net/Rguihua/article/details/103327566

版权

gooseeker使用问题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

此处以新浪网酿酒行业股票数据爬取为例（股票网页都是实时变化的，动态性极高）
1）酿酒行业的股票信息爬取（因为gooseeker以前实验使用过，所以此处不再详细介绍基本步骤，会更多的介绍本人踩过的坑）
a、输入网址并创建规则
在这里插入图片描述

b、进行内容映射（因为股票网站时实时性非常高的网站，刷新速度非常快，所以此次要先点击左上角规则里进行页面冻结，再进行内容映射）
在这里插入图片描述
否则会出现：

页面冻结后即可：

c、进行样例复制（此处需要将整理箱的网页内容定位改为绝对定位，因为某些属性的class结构太相似，导致后面的属性爬的都是同一个数据，导致数据错误）
在这里插入图片描述
测试的正确结果：（如果你测试时显示“抓取规则为空…”，问题可能在于你冻结页面的时候已经进行了内容映射，解决方法：可以删除规则再从头按照我的步骤来就行了）

错误结果：（提示：后面的数据全被最新价给覆盖了，而且不绝对定位，有时后面的新一个里的名称项也显示不出来，此处爬取的酿酒业股票就是这样）

           <代码>sh600059</代码>
           <名称>古越龙山</名称>
           <最新价>8.23</最新价>
           <涨跌额>8.23</涨跌额>
           <涨跌幅>8.23</涨跌幅>
           <买入>8.23</买入>
           <卖出>8.23</卖出>
           <昨收>8.23</昨收>
           <今开>8.23</今开>
           <最高>8.23</最高>
           <最低>8.23</最低>
           <成交量 手>8.23</成交量 手>
           <成交额 万>8.23</成交额 万>

e、存规则并爬取数据（此处gooseeker爬取出来的是xml文件，需要将其转为为excel文件，此时需要登陆gooseeker的会员中心，选择数据管理，将刚刚爬取出来的xml压缩成zip，再点击导入xml，导入成功后即可点击导出数据，此时导出的数据下载后进行解压就可得到xlsx文件。）
在这里插入图片描述

2）、接下来再介绍一点翻页爬取数据：
步骤：
a、点击爬虫路线并新建线索
b、选择连续翻页，选择记号线索
c、然后点击浏览器里的“上一页”或者“下一页”，总之就是翻页的地方，此时会定位到一个位置，此时不用点进去选择text文字进行映射，先将定位到的位置进行翻页映射为线索1（你的线索名），再点击进去选择text，将text映射为记号线索
e、可以点击测试，然后保存规则，进行数据爬取
在这里插入图片描述

最后，无论是否能帮助到您，感谢您的阅读！

冉先森i

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
gooseeker“定位不到网页位置。请选择菜单“规则”->“刷新网页结构”后再试 ”；gooseeker爬取的数据出现数据覆盖；将xml转为excel可读的xlsx；gooseeker翻页爬取数据

此处以新浪网酿酒行业股票数据爬取为例（股票网页都是实时变化的，动态性极高）1）酿酒行业的股票信息爬取（因为gooseeker以前实验使用过，所以此处不再详细介绍基本步骤，会更多的介绍本人踩过的坑）a、输入网址并创建规则b、进行内容映射**（因为股票网站时实时性非常高的网站，刷新速度非常快，所以此次要先点击左上角规则里进行页面冻结，再进行内容映射）**否则会出现：页面冻结后即可：...
复制链接

扫一扫