此处以新浪网酿酒行业股票数据爬取为例(股票网页都是实时变化的,动态性极高)
1)酿酒行业的股票信息爬取(因为gooseeker以前实验使用过,所以此处不再详细介绍基本步骤,会更多的介绍本人踩过的坑)
a、输入网址并创建规则
b、进行内容映射(因为股票网站时实时性非常高的网站,刷新速度非常快,所以此次要先点击左上角规则里进行页面冻结,再进行内容映射)
否则会出现:
页面冻结后即可:
c、进行样例复制(此处需要将整理箱的网页内容定位改为绝对定位,因为某些属性的class结构太相似,导致后面的属性爬的都是同一个数据,导致数据错误)
测试的正确结果:(如果你测试时显示“抓取规则为空…”,问题可能在于你冻结页面的时候已经进行了内容映射,解决方法:可以删除规则再从头按照我的步骤来就行了)
错误结果:(提示:后面的数据全被最新价给覆盖了,而且不绝对定位,有时后面的新一个里的名称项也显示不出来,此处爬取的酿酒业股票就是这样)
<代码>sh600059</代码>
<名称>古越龙山</名称>
<最新价>8.23</最新价>
<涨跌额>8.23</涨跌额>
<涨跌幅>8.23</涨跌幅>
<买入>8.23</买入>
<卖出>8.23</卖出>
<昨收>8.23</昨收>
<今开>8.23</今开>
<最高>8.23</最高>
<最低>8.23</最低>
<成交量 手>8.23</成交量 手>
<成交额 万>8.23</成交额 万>
e、存规则并爬取数据(此处gooseeker爬取出来的是xml文件,需要将其转为为excel文件,此时需要登陆gooseeker的会员中心,选择数据管理,将刚刚爬取出来的xml压缩成zip,再点击导入xml,导入成功后即可点击导出数据,此时导出的数据下载后进行解压就可得到xlsx文件。)
2)、接下来再介绍一点翻页爬取数据:
步骤:
a、点击爬虫路线并新建线索
b、选择连续翻页,选择记号线索
c、然后点击浏览器里的“上一页”或者“下一页”,总之就是翻页的地方,此时会定位到一个位置,此时不用点进去选择text文字进行映射,先将定位到的位置进行翻页映射为线索1(你的线索名),再点击进去选择text,将text映射为记号线索
e、可以点击测试,然后保存规则,进行数据爬取
最后,无论是否能帮助到您,感谢您的阅读!