stata抓取html,(5)详解 stata 爬虫抓取网页上的数据 part 1

本文详细介绍了如何使用stata13抓取中国统计信息网前50页、共1000个地区的GDP数据。通过观察网页链接规律,使用forvalues循环语句抓取页面,并提取公报链接,最终实现批量处理。第一轮抓取50个页面,第二轮抓取1000个公报信息,整个过程涉及网页源代码分析、链接提取和批处理文件的使用。
摘要由CSDN通过智能技术生成

*案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据。使用stata版本为 stata13,与12版本和14版本都不兼容。本文do-file及相关文件 链接:https://pan.baidu.com/s/1smVkcUh 密码:40uq

初学stata爬虫,见网络上还未有详细的案例,此类培训费用也较高,特分享此篇案例,仅为个人经验的总结,与诸君共享。学无止境,相信还有更好的处理命令和方法,欢迎指教。

首先对于网页的数据结构有一定的要求,要求数据在网页中排布的规律性较强,方便进行抓取,如案例网站中,每个地区就是一份公报,每份公报的格式大同小异,基本开篇都有GDP数据,还比较规律。因此就用此网站作为案例尝试:Tips:杂乱无章的网页也不是不能处理,只是处理起来难度较大而已,只要掌握了基本原理,再去处理复杂网页数据相信也不是什么难事。

2f0e293866f1

各地区统计公报

2f0e293866f1

点击进入次级页面后,每个地区公报基本都是相同格式,开篇就有GDP数据

/*先观察网站上公报每一页对应的网址链接变化规律&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值