爬虫
文章平均质量分 95
磐石若水
这个作者很懒,什么都没留下…
展开
-
爬取华尔街日报的历史数据并翻译
文章目录获取 Cookies获取文章列表网页分析代码文章列表文章年份分布文章主题分布爬取文章内容分析网页爬取文章代码爬取文章样例翻译翻译文章代码翻译文章样例注释参考文献从读论文和写论文的体验来看,传闻证据 (anecdotes) 对论文能不能给人可靠的第一印象有决定性作用。传闻证据到位了,就不会有人追着问一些澄清性问题 (clarification questions),后面论证研究题目的重要性时也会顺利很多 (why care),此外,很多时候传闻证据对作者本人更好地了解研究背景 (institutio原创 2021-06-11 16:05:59 · 4429 阅读 · 2 评论 -
从 SEC EDGAR 获取股东治理数据 (Shareholder Activism)
Parse Shareholder Activism Letter: From SEC EDGAR写论文的时候需要搞一个 shareholder activism 变量,但是学校没买。看了下 Brav et al. (2018 JFE),发现这个数据是直接从 SEC EDGAR 的 13D 文件整理的,等图书馆订要好几天,索性自己爬了。获取 Cookies我一般用 Selenium 获取 cookies,这种方法自动化,而且几乎对任何网站都适用。对于 EDGAR,由于默认只显示文件名称,文件日期和涉及原创 2021-06-10 20:41:06 · 2279 阅读 · 0 评论 -
Instgram爬虫及其断点续传_一个AJAX异步加载爬虫
主程序import reimport jsonimport timeimport randomimport requestsfrom pyquery import PyQuery as pqimport pandas as pdimport csvfrom datetime import datetimeimport mathdef baseurl(acc): ur...原创 2019-11-21 07:20:20 · 660 阅读 · 1 评论