stata抓取html,（5）详解 stata 爬虫抓取网页上的数据 part 1

最新推荐文章于 2023-01-08 22:23:48 发布

weixin_39903538

最新推荐文章于 2023-01-08 22:23:48 发布

阅读量1.3k

点赞数 1

文章标签： stata抓取html

本文详细介绍了如何使用stata13抓取中国统计信息网前50页、共1000个地区的GDP数据。通过观察网页链接规律，使用forvalues循环语句抓取页面，并提取公报链接，最终实现批量处理。第一轮抓取50个页面，第二轮抓取1000个公报信息，整个过程涉及网页源代码分析、链接提取和批处理文件的使用。

摘要由CSDN通过智能技术生成

*案例：抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据。使用stata版本为 stata13，与12版本和14版本都不兼容。本文do-file及相关文件链接：https://pan.baidu.com/s/1smVkcUh 密码：40uq

初学stata爬虫，见网络上还未有详细的案例，此类培训费用也较高，特分享此篇案例，仅为个人经验的总结，与诸君共享。学无止境，相信还有更好的处理命令和方法，欢迎指教。

首先对于网页的数据结构有一定的要求，要求数据在网页中排布的规律性较强，方便进行抓取，如案例网站中，每个地区就是一份公报，每份公报的格式大同小异，基本开篇都有GDP数据，还比较规律。因此就用此网站作为案例尝试：Tips：杂乱无章的网页也不是不能处理，只是处理起来难度较大而已，只要掌握了基本原理，再去处理复杂网页数据相信也不是什么难事。

2f0e293866f1

各地区统计公报

2f0e293866f1

点击进入次级页面后，每个地区公报基本都是相同格式，开篇就有GDP数据

/*先观察网站上公报每一页对应的网址链接变化规律&

最低0.47元/天解锁文章

weixin_39903538

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。