自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 资源 (1)
  • 收藏
  • 关注

原创 Replicate Brogaard Stock Volatility Decomposition

Produce the stock information content measures introduced by Brogaard et al. (2022, RFS)

2023-01-11 21:33:42 700

原创 Theory for the information-based decomposition of stock price

Theoretical techniques in variance decomposition method proposed by Brogaard et al. (2022, RFS)

2023-01-11 21:31:41 817

原创 Dig into Estimation of VAR Coefficients, IRFs, and Variance Decomposition in Stata

Manually compute all the major outputs of VAR

2023-01-11 21:28:55 300

原创 Touch into the Vector Auto Regression Model

The logics of VAR model

2023-01-11 21:26:20 603

原创 Extract Mass Data Via Bloomberg API

Operation Environment Preparation and Data Extracting

2022-09-12 05:08:52 459

原创 Seeking Alpha From Market Participants‘ Information Acquisition Actions

Trace information acquisition actions of both retail and institutional investors

2022-09-12 05:04:17 622

原创 Utilize Google Search as an Integrated Data Source

A standardized approach for unformatted data collection

2022-05-15 19:12:36 230

原创 Collect Daily Level Short Sale Data From FINRA With Low Costs and Low Delay

Affordable and high-quality daily-level short selling data collection

2022-05-15 19:09:21 275

原创 Extract High-frequency Data via PC SAS

Request trade and quotes data from WRDS-TAQ database for intra-day event study

2021-12-16 05:05:08 1169

原创 Twitter API: Door To Social Media Analysis II

个人博客地址在 https://mengjiexu.com/post/door-to-twitter-analysis-ii/IntroductionPlease see the background information about Twitter API v2 in my last blogpost Twitter API: Door To Social Media Analysis I. In this blogpost, I will replicate the Tweets extracti

2021-11-06 19:27:42 346

原创 Twitter API: Door To Social Media Analysis I

MotivationIn the last few decades, a series of papers published in top accounting journals have repeatedly proved that Twitter data could empower very fascinating research ideas. To give readers an intuition about the potential of Twitter data, I would ro

2021-11-06 19:24:37 2823

原创 Information sources that might have inspired nice economic papers

Recently, I came up with several unexpected links between the books or newspapers I am (or have been) exposed to and some fascinating papers published in top economic journals. In this blogpost, I will record the main ideas of those economic papers and the

2021-10-21 04:54:06 531

原创 Exploit WRDS Cloud via Python

因为有了自建博客,所以以后博文都是英文,不过我的 Chinglish 应该很好理解 = =。个人博客地址在这里 https://mengjiexu.com/。MotivationThe WRDS-SAS Studio seems to be suspended soon. As a big fan of this cloud platform, I have to find something alternative to make my data extraction from WRDS repli

2021-10-13 17:53:01 770 1

原创 爬取华尔街日报的历史数据并翻译

文章目录获取 Cookies获取文章列表网页分析代码文章列表文章年份分布文章主题分布爬取文章内容分析网页爬取文章代码爬取文章样例翻译翻译文章代码翻译文章样例注释参考文献从读论文和写论文的体验来看,传闻证据 (anecdotes) 对论文能不能给人可靠的第一印象有决定性作用。传闻证据到位了,就不会有人追着问一些澄清性问题 (clarification questions),后面论证研究题目的重要性时也会顺利很多 (why care),此外,很多时候传闻证据对作者本人更好地了解研究背景 (institutio

2021-06-11 16:05:59 3931 2

原创 从 SEC EDGAR 获取股东治理数据 (Shareholder Activism)

Parse Shareholder Activism Letter: From SEC EDGAR写论文的时候需要搞一个 shareholder activism 变量,但是学校没买。看了下 Brav et al. (2018 JFE),发现这个数据是直接从 SEC EDGAR 的 13D 文件整理的,等图书馆订要好几天,索性自己爬了。获取 Cookies我一般用 Selenium 获取 cookies,这种方法自动化,而且几乎对任何网站都适用。对于 EDGAR,由于默认只显示文件名称,文件日期和涉及

2021-06-10 20:41:06 2088

原创 2000-2020年中国地面气象数据:从NOAA到分省面板

一个预告:最近看到Mukherjee et al. (2021, JFE) 的文章,受到了点启发,想找中国的云层数据来试试,但是没有质量特别高的数据,只好老老实实按照这篇论文中的做法从NOAA 直接下数据细数出来。数据源为NCDC(美国国家气候数据中心,National Climatic Data Center),隶属于NOAA(美国国家海洋及大气管理局,National Oceanic and Atmospheric Administration)。数据来自NCDC的公开FTP服务器中的 ftp

2021-03-30 06:38:03 16914 49

原创 如何优雅地管理微信数据库?

最近每天在隔离点蹲着,发现隔离点的护士小姐姐每天两次在群里扒聊天记录统计一两百号人的体温真是太南了,所以想写个程序帮小姐姐自动收集,今天刚好隔离期满,也算是给这段特殊的经历留个纪念。这篇文章主要内容是:如何找到微信本地缓存数据库存放地址Mac OS 关闭 SIP 系统完整性保护lldb 断点调试得到缓存数据库地址如何打开数据库lldb 断点调试得到数据库密码使用 DB Br...

2020-04-01 20:35:57 4652 4

原创 薅谷歌爸爸羊毛第一集 - 在Colab上运行Python代码

为什么使用Colab免费GPU提供超大算力和显存,尤其是最近谷歌爸爸把Colab的GPU从古董级别的K80全面升级成Tesla T4后好像更牛逼了融合了Jupyter使得Colab可视化十分友好和Google Drive的连接提供了高效的云存储和团队协作解决方案是时候薅一波谷歌爸爸的羊毛了如何配置Colab从 https://colab.research.google.com/no...

2019-12-01 21:38:15 3964

原创 Instgram爬虫及其断点续传_一个AJAX异步加载爬虫

主程序import reimport jsonimport timeimport randomimport requestsfrom pyquery import PyQuery as pqimport pandas as pdimport csvfrom datetime import datetimeimport mathdef baseurl(acc): ur...

2019-11-21 07:20:20 630 1

原创 自然灾害冲击在供应链上的传染效应

Barrot and Sauvagnat - 2016 - QJE - INPUT SPECIFICITY AND THE PROPAGATION OF IDIOSYNCR主要发现基于自然灾害发生的特殊冲击发现受影响的供应商对其客户造成了巨大的产出损失,特别是当他们生产特定投入时这些产出损失转化为重大的市场价值损失,并且溢出到其他供应商。点估计在经济上很大,这表明输入特异性是经...

2019-07-27 00:21:22 3911 2

原创 公司的投资决策是否会受到同行股价的影响:公司是否对同行股价有学习效应

Foucault and Fresard - 2014 - JFE - Learning from peers’ stock prices and corporate investment主要关注点公司的投资会受到同行的市场估值(股票价格)的影响。具体而言,我们检验了一个假设,即公司同行的市场估值会影响其投资,因为这种估值可以告知管理者公司的增长机会,从而补充管理者可获得的其他信息。例如,管理...

2019-07-26 21:50:36 593

原创 公司总部所在地是一个重要的定价因子吗?

Wang - JF - 2006 - Does Corporate Headquarters Location Matter for Stock Returns?文章目录主要结论主要研究路径机制异质性主要贡献模型验证地区股价联动性总部所在地搬迁对地区股价联动性的影响当地基本面对地区股价联动性的影响主要结论总部所在地相同的股票,其股价具有联动性改变总部所在地的股票,他们与旧地区的联动...

2019-07-26 13:05:48 296

原创 多重比较偏误及三种调整方式:Benferroni/Holm/BHY Adjustment

… and the Cross-Section of Expected ReturnsCampbell et al. 2016, RFS这是一篇文献阅读笔记,文献为:Harvey C R, Liu Y, Zhu H. … and the cross-section of expected returns[J]. The Review of Financial Studies, 2016, 2...

2019-05-26 21:56:18 12211

原创 使用 Jupyter Notebook 配置Stata/Python/Julia/R

早在去年在 Coursera 上学 Julia 的时候就用过Jupyter Notebook,当时感觉没啥特别的。然鹅最近和连老师交流的时候突然发现了Jupyter 的妙处,所以写篇 Jupyter 配置笔记来记录一下。文章目录为什么使用 Jupyter Notebook ?如何安装 Jupyter Notebook ?第一种方案第二种方案两种方案的选择在 Jupyter 里添加 KernalS...

2019-05-17 22:19:50 4366 2

原创 6小时爬完上交所和深交所的年报问询函

“没有枪没有炮我们给自己造。”—— 周书人昨天开组会的时候导师说想搞年报问询函的研究,但是买数据库太贵了。我说老板,放着我来( ‵▽′)ψ。任务描述-分别从上交所和深交所的官网上爬取年报问询函的记录解决思路解析网页获取全部的年报问询函列表及相应的文件链接打开第一步获取的文件链接,读取PDF数据,并直接转成txt格式的文字

2019-05-15 23:34:53 13078 22

原创 百万级数据分析通过拆分文件将程序运行速度提高135倍

任务描述:对2010年后49083条上市公司股权变更数据(Firm-Event 观测)分别统计每个事件发生前后15天公司:- 发布的临时公告数- 累计超额收益(CAR)数据描述:数据集总样本数2010年后的样本数上市公司股权变更记录5758449083上市公司公告记录27870262758934上市公司日超额收益97494645534947...

2019-05-15 23:34:35 628

原创 Stata Journal 2001-2019年全部期刊目录及下载链接

帮连玉君老师的 Stata连享会 写的一个小爬虫,数据源为 SAGE - Stata Journal ,把成果分享给大家。This is Volume 1 Issue 1, November 2001Patrick Royston, 2001, Flexible Parametric Alternatives to the Cox Model, and more, Stata Journal,...

2019-05-15 23:34:19 4240 1

原创 使用Stata做脉冲响应分析

Source: Rizaudin Sahlan → Impulse Response Function with Stata (time series)在这篇推文中,我们讨论 VAR 模型中的脉冲响应函数(IRFs)。脉冲响应函数反映了当 VAR 模型某个变量受到"外生冲击"时,模型中其他变量受到的动态影响。我们会根据这些变量受到此冲击后的一段时间内的动态变化画出脉冲响应图形。脉冲响应函数是...

2019-04-25 21:20:42 39173 7

原创 内生交乘项的处理

对于含有内生解释变量和内生解释变量构成的交乘项的模型(1)Yi=β0+β1Pi+β2Xi+β3PiXi+εiY_{ { i } }=\beta _{ { 0 } }+\beta _{ { 1 } }P_{ { i } }+\beta _{ { 2 } }X_{ { i } }+\beta _{ { 3 } }P_{ { i } }X_{ { i } }+\varepsilon _{ { i } ...

2019-04-10 22:00:46 7298 5

原创 使用正则表达式从文本中定位并提取想要的内容

问题提出还是年报问询函的研究,需要从问询函文本中提取交易所要求回复的日期,同时还需要从公司回复的文本中提取公司实际上回复的日期。因此需要对两类文本分别进行分析。解决思路通过观察,发现问询函中含有交易所要求回复的日期的句子通常是这样的:“请你公司就上述问题做出书面说明,并在 8 月 9 日前将有关说明 材料报送我部,并对外披露。”“请你公司就上述问题做出书面说明,涉及需披露的,请及时履行...

2019-04-09 12:22:41 10404 1

原创 分享一个Python的装饰器函数避免程序假死

最近在爬公告,但是用 Pdfminer3k 转码的时候由于某些PDF格式不规范很容易出现转一个文件要很久出现类似于程序假死的状况,然而事实上这种情况出现的时候我更偏向于跳过这个公告等全部爬完后统一处理,所以我就给自己的爬虫加了一个装饰器函数来专门应对这种情况。主要的功能是对每一个循环设置最大运行时间,如果一次循环运行时间超过这个阈值,就跳过这次循环进入下一个循环,类似于 requests 库的 t...

2019-04-06 13:19:09 788 2

原创 百万级大样本中的countif实现

数据集描述主要有两个数据集:公告列表使用python爬取的巨潮资讯网所有公告记录,共2787026条。sample如下:announcementidstkcdstknamedeclaredatetitle184272421S 深发展A2006/10/10S深发展A自2006年10月10日开市起临时停牌231526921S 深发展A2007/...

2019-03-28 19:58:32 1266

原创 Wind量化接口初探

最近要从Wind上下很多数据,但是点来点去太繁琐了,而且会下很多冗余的数据,还好有量化接口这个东西,直接用代码订制你想要的数据,而且速度飞快,体验极好。import pandas as pdfrom WindPy import *from datetime import *import timeimport numpy as npdata = pd.read_table('C:\\g...

2019-02-14 17:39:17 14569 5

原创 合并重叠时间窗口

任务描述最近在做上市公司大股东减持的事件研究,得到了每次减持从减持完成及之后15个交易日的时间窗口,已经按照stkcd evendate的顺序排好序,存储到 test.txt 中。显然存在很多重叠的时间窗口,所以想去除掉Overlapping的部分,减少下一步工作的工作量。stkcdstknameeventdateedate1平安银行2017/6/272017/7...

2019-02-14 13:24:22 700

原创 VAR 在 Stata 中的模拟、估计和推断

VAR 是分析多个时间序列的动态变化的利器,该模型设定由一组时间序列组成的序列是其自己滞后项的函数。1. 模拟首先使用如下设定模拟双变量 VAR(2) :[y1,ty2,t]=μ+A1[y1,t−1y2,t−1]+A2[y1,t−2y2,t−2]+ϵt \left[ y_{ 1,t }\\ y_{ 2,t } \right] =\mu +A_{ 1 }\left[ y_{ 1,t-1 }...

2018-11-27 16:41:23 6910

原创 Stata 中的向量自回归模型(VAR)

1. 引言在单变量回归中,一个平稳的时间序列 yty_tyt​ 经常被模型化为 AR 过程:yt=α0+α1yt−1+α2yt−2+⋯+αkyt−k+ϵty_t=\alpha_0+\alpha_1 y_{t-1}+\alpha_2 y_{t-2}+\dots +\alpha_k y_{t-k}+\epsilon_tyt​=α0​+α1​yt−1​+α2​yt−2​+⋯+αk​yt−k​+ϵ...

2018-11-21 12:09:44 30926 3

原创 OLS可视化模拟:A Shiny App for Playing with OLS

1. OLS 回顾采用矩阵形式将线性回归模型表示如下:y=xβ+u(1)y = x\beta + u \qquad (1)y=xβ+u(1)若假设解释变量外生 (同时满足其它基本假设条件),即 E(x′u)=0E(x'u)=0E(x′u)=0,则 OLS 估计式如下:β^=(x′x)−1x′y(2)\hat{\beta} = (x'x)^{-1...

2018-11-16 23:55:47 808

原创 协整还是伪回归?

帮Stata连享会翻译的第二篇文章:协整还是伪回归?。由于markdown语言还不是很成熟,尤其是在数学公式上有很多bug,所以我自己的博客就是我的测试001啦。以下为原文:时间序列数据经常是不平稳而且序列之间往往有一定程度上的共同联动关系。一组时间序列协整意味着这组序列内存在一个长期的均衡关系。如果这种长期的均衡关系不存在,则表面上的联动则是无意义的。分析多个不平稳的时间序列是否协整可以帮助...

2018-11-08 12:11:14 3143 1

原创 Stata中的单位根检验

检验序列的平稳性是时间序列分析的关键步骤。时间序列中很多估计量的统计特性都依赖于数据是否平稳。一般意义上,一个(弱)平稳过程的期望、方差和自相关系数应不随时间变化。然而在大多可观测的时间序列中,趋势项的存在总会使得序列不具有平稳性。趋势项包括确定趋势项和随机趋势项,趋势项的类型决定了我们需要使用什么方法将时间序列转换成平稳序列。比如,含有随机趋势项的单位根过程可以通过差分变得平稳。然而,对实际上...

2018-11-07 00:06:56 62814 4

原创 Bubbles for Fama(2018, JFE)的泡沫识别策略:应用于中国股票市场

今年9月的JFE发了篇评价Fama“价格变动是理性的,价格飙升不等同于价格泡沫”观点的文章,核心结论有:i)行业层面,价格的剧烈上扬并不表示未来资产收益的降低(即动量效应是存在的);ii)但是,价格的急增与未来股票崩盘有显著正相关;iii)价格波动、新股发行、BP、EP、股价上升的路径,都能具有预测未来股价崩盘的效用;iv)上述因子可以对泡沫做出有效择时。这篇文章给出的识别泡沫和崩盘的...

2018-11-03 00:29:45 2016 2

中国335个地级市20年的面板数据

中国335个地级市20年的面板数据,包括人口、财政等

2019-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除