python会计实证研究_实证研究者的爬虫工具选择

最新推荐文章于 2024-03-03 13:07:30 发布

weixin_39926739

最新推荐文章于 2024-03-03 13:07:30 发布

阅读量563

点赞数

文章标签： python会计实证研究

作为一个实证研究小青年??，有段时间因为研究的需要，要做定向爬虫。这是自己学习Python最初的缘由。那个时候爬虫的材料还不是太多，自己在网上找了一些文章和电子书来学习。边学边试，不久就完工了。

完工之后还不时关注爬虫的技术教程，后来发现网上有大批小伙伴开始学习爬虫，很多是非专业小伙伴(本职工作不是爬虫 )，一时间感觉爬虫好火。

个人认为(不一定对)，爬虫火是源于用户需求(研究的需要；好玩；尝鲜……)和培训者推动。作为实证研究者，确实需要一些爬虫技术来帮助自己完成数据收集，这个时候选一个比较好的工具很有必要。如果阅读了比较陈旧的网络经验贴或者听了第三方培训，而选择了不太合适的工具，会影响占用过多的研究时间，影响研究进展。

场景：做实证研究，需要取数，可以爬虫(定向爬虫)实现。那么，如何选工具呢？

Python：最简单的组合requests+bs4

当时自己花了大量时间去研究urllib和requests异同，bs4和lxml的异同……嘿呀，左手来个urllib，右手来个requests……浪费时间?

期间还去学Scrapy，不过用得不太习惯，后面就没有仔细学习了。

此外还去折腾无头浏览器。嗨，对只是拿数据做研究发文章的小青年，其实没有必要去研究无头浏览器。

术业有专攻，过于复杂的爬虫还是交给专业小伙伴来做，自己抓紧进行研究设计和构思。

复杂到什么程度呢，下面举些例子：如果高频率发起请求，只是换换ip代码就还可以凑合用，那么还可以自己干

如果只是post几个数据，构建一些url，那么还可以自己干

如果只是构造Request Headers就可以蒙混过关抓数据，那么还可以自己干

如果……

如果已经需要应对复杂验证码，这个时候可以不自己整了

如果自己东拉西扯写了好几天，代码还没实现，这个时候可以不自己整了

可以跳过的工具R

R社区的小伙伴很热情，编了一些包，也可以爬虫。有些初学的小伙伴很激动，R可以爬虫啦。其实，爬虫不是R语言的强项。如果不是尝鲜，没有必要花时间去学习用R来实现爬虫。有多的时间可以深入学习数据分析手艺和撰写报告的手艺。Stata

Stata乃是实证小青年常用之利器，做起应用微观计量十分便捷，若是分析结果一路星星，那是何等的酣畅淋漓?

现在有小伙伴用Stata做爬虫，还做文本分析。其实只是做简单爬虫，稍微复杂点的网页或者是有点基本的反爬虫机制，Stata就难以应付了。所以，爬虫就不要去麻烦实证分析好伙伴Stata，交给其他更好的工具吧。curl

有微信文章推介用curl来爬虫。curl的官方介绍是“command line tool and library for transferring data with URLs”。只简单用过curl，个人认为在爬虫场景中它没有requests+bs4组合好用。……

其他工具

此外，还尝鲜过Julia(<1.0)和Node.js中的requests工具，但是感觉都不爽。这和个人的手艺不熟练?、工具生态不成熟有关。不过，Node.js写爬虫还是很好玩。

Go语言爬虫工具也有一些，可以后面去试试。

除了自己写代码，网上还有一些数据采集工具也可以尝试一下。

以上是对“拿数据，做实证，发文章”小伙伴的爬虫工具选择的看法，一家之言，仅供参考?

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。