arlionn-CSDN博客

转载实证分析：敬畏失败才能应对失败

数据分析中的失败可以分为核验失败（结果违背预期）和效验失败（分析目标偏差）。成功并非终点，需反思潜在结果集，追问为何观察到特定结果而非其他。面对失败要排查原因，成功时也需警惕"太顺利"的可疑性。通过敏感性分析等压力测试，补全对数据与流程的理解，推动分析进步。关键在于敬畏失败，在成功与失败间切换视角，持续提升分析质量。

2025-12-26 20:44:48 12

转载手把手人工神经网络系列（一）：基本原理

本文介绍了神经网络的基本原理及其应用优势。文章首先阐述了神经网络在模式识别、处理复杂任务和减少人工干预方面的核心价值，并以房价预测为例说明神经网络的回归功能。通过对比生物神经元，详细解释了人工神经元的结构和工作机制，包括输入权重、加权求和及激活函数等关键概念。作为系列首篇，本文以通俗易懂的方式为读者构建了神经网络的基础认知框架，适合初学者入门。

2025-12-07 14:49:59 45

本文提供了一张统计学与机器学习术语对照表，帮助读者理解两个学科对同一概念的不同表述。文章指出，所有建模问题都可归结为同一数学表达式y=m(x;θ)+ε，并详细拆解了变量、映射、参数和误差项在两种学科中的不同术语。文中列举了目标与任务、输入与表征、参数与调参等六大类术语对照，包括估计vs学习、变量vs特征、参数vs权重等。最后给出实践建议：明确目标是解释还是预测，理解似然与损失的关联，在交流中使用双语标注，并重视样本外检验。该对照表可作为跨学科研究的实用工具，帮助研究者自如切换两种"方言"

2025-12-07 14:38:39 67

转载中文乱码不再棘手：用 Unicode 和 UTF-8 打通 Stata、Python、R

摘要本文系统介绍了数据分析中常见的中文乱码问题及其解决方案。文章首先阐述了ASCII、Unicode和UTF-8三种编码标准的核心概念与区别：ASCII是最早的7位字符编码标准，Unicode为多语言字符提供统一编号体系，而UTF-8则是Unicode的一种高效存储实现方式。针对实际工作中遇到的编码问题，作者提出了一套通用解决方案：检测文件编码→转换为UTF-8→在Stata/Python/R中正确读写。通过理解这些编码原理和掌握相应工具命令，可以有效解决跨平台数据交换时的中文乱码问题。

2025-12-04 15:11:37 88

转载数据分享：收藏！宏观经济与金融数据大合集

本文整理了一份免费宏观经济与金融数据资源清单，涵盖四大核心板块：英国数据网站（国家统计局、央行、财政部等权威机构）、国际数据网站（世界银行、IMF、OECD等）、市场数据（雅虎财经、大宗商品等高频数据）以及数据门户网站（UKDataService等）。这些资源包含海量高质量统计数据，支持自定义图表制作和数据集创建，是经济学实证研究的宝贵工具。通过系统梳理40余个权威数据来源，帮助研究者快速定位所需数据，提升科研效率。建议收藏备用，让免费数据成为研究的有力支撑。

2025-12-02 08:29:04 465

转载 Stata 爬虫：copy命令失败了？可能是证书库惹的祸

摘要：本文探讨了Stata中使用copy命令进行网络爬取时可能遇到的HTTPS证书验证问题。当浏览器能正常访问API链接而Stata报错（如PKIX路径构建失败）时，问题往往源于Stata版本较旧或证书库不兼容。文章通过OpenCitations API案例展示了该现象，并解释这是由于不同软件使用不同的证书信任体系所致。解决方案包括升级Stata版本或手动更新证书库，而非修改代码本身。

2025-12-02 08:25:08 42

转载质性研究：不跑回归也很有趣

摘要：质性研究通过深入个案分析，揭示组织行为背后的机制与过程。与量化研究不同，质性研究采用访谈、观察和文本分析等方法，聚焦"如何发生"和"为什么"的问题。以银行反洗钱监管为例，研究者通过理论取样选取典型案例，收集访谈记录、观察笔记和内部文件，然后进行编码分析，从庞杂文本中提炼概念和机制。这种方法能打开组织运作的"黑箱"，弥补量化研究在机制分析上的不足。质性研究特别适合探究难以量化的行为逻辑和决策过程。

2025-12-02 08:22:16 71

转载深度学习在经济学中的各类应用

摘要：本文介绍了深度学习在经济学中的应用，重点讨论了如何利用神经网络从非结构化数据（如文本、图像）中提取结构化信息用于经济分析。文章概述了神经网络的基本框架，包括卷积神经网络（CNN）和循环神经网络（RNN）的工作原理，并强调了迁移学习在经济学研究中的实用性。作者还提供了配套资源库EconDL，旨在帮助经济学家掌握深度学习技术，将其应用于文本分析、图像识别和因果推断等领域。

2025-11-30 14:45:48 113

转载 TFP 专题：估计、识别与分解

本课程聚焦全要素生产率(TFP)的测算与应用，由中山大学董展育和武汉大学李旭超两位教授联合授课。课程将系统讲解OP、LP、ACF等经典TFP估计方法，深入探讨价格偏误、TFPR等核心概念，并指导如何将TFP指标有效融入研究设计和宏观分析框架。通过3天6个专题的学习，学员将掌握从企业层面生产函数估计到行业加总分解的全套研究方法，提升TFP在学术论文中的应用能力。课程适合希望在研究中运用TFP指标，但对其测算方法和解释边界存在疑问的学者。

2025-11-30 14:42:11 150

转载 GPU 还是 CPU？文本分析、LLM 微调、多模态各自怎么选

本文对比了GPU和CPU的特点及其适用场景，指出GPU凭借并行计算优势更适用于深度学习和大模型任务。针对经济金融研究需求，文章提供了三档GPU配置建议：入门级RTX4060适合教学演示和小规模实验；主力级RTX4070/4070SUPER可支持7B级LLM微调；重度级RTX4090适用于13B级模型训练。同时强调传统计量分析通常只需CPU即可完成。最后指出，GPU在文本分析、LLM微调和多模态任务中能显著提升效率，但需根据实际需求合理配置硬件资源。

2025-11-28 15:41:49 70

转载经济学实证研究：可信度革命后去向何方？

摘要：本文梳理了经济学实证研究的发展历程与未来挑战。第一代实证研究（1970年代）依赖观测数据和统计模型，但难以解决内生性问题。第二代实证研究转向随机对照试验(RCT)和自然实验，推动"可信度革命"，但仍面临复现性、p值操纵等挑战。文章指出，当前研究需平衡内部效度与外部效度，并探讨了大数据时代下实证经济学的可能发展方向。

2025-11-26 21:28:17 158

转载研究假设！研究假设！AI 来帮我

摘要：本文探讨如何利用AI工具辅助学术研究中的假设生成环节。重点分析两种方法：Ludwig和Mullainathan提出的数据驱动型假设生成，以及Batista和Ross的文本挖掘式假设发现。作者指出AI在信息整合、表达重组和头脑风暴方面的优势，并强调其作为"理论辅助脑"而非替代研究者的定位。文章还提供了撰写有效Prompt的具体建议，包括明确研究背景、任务边界和预期输出格式，帮助研究者更高效地利用AI生成有价值的理论假设。

2025-11-26 21:25:10 76

转载 Quarto 极简幻灯片：支持 R/Python 代码集成

本文介绍了使用Quarto制作极简学术幻灯片的方法。Quarto是一款支持R/Python代码集成的开源工具，可生成HTML格式幻灯片。核心步骤包括：安装Quarto及VSCode扩展，配置Jupyter环境，编写.qmd文件并嵌入代码，通过渲染命令生成最终幻灯片。该方案支持Markdown语法和LaTeX公式，适合跨平台学术演示，相比传统幻灯片软件在代码集成方面更具优势。文中还提供了详细的安装配置指南和模板下载链接。

2025-11-25 15:30:26 44

转载 Stata绘图：用violinplot绘制小提琴图

摘要：本文介绍了Stata中使用violinplot命令绘制小提琴图的方法。小提琴图结合了箱型图和核密度曲线的优点，能同时展示统计摘要和分布形态。文章详细讲解了命令安装、语法结构及主要选项，包括分组控制、密度估计和图形元素设置等。通过nlsw88数据集案例，演示了如何绘制基本小提琴图并解读工资、工作经验等变量的分布特征。该命令功能全面，支持灵活定制，适合学术研究和数据可视化需求。

2025-11-25 15:27:56 57

转载 unitdid：以个体事件反应为因变量的 DID 估计方法

本文提出了一种新的因果分析方法——个体事件研究法（ULES），用于评估政策干预对个体事件反应的影响。该方法分为两步：首先测量个体在事件发生后的反应（ULES估计量），再将其作为因变量分析政策效应。研究框架基于三期面板数据，通过线性模型和严格外生性假设构建ULES测度，并探讨政策干预对事件反应的双重影响机制（直接影响和通过事件时间的间接影响）。该方法适用于分析如儿童照护政策如何改变生育对女性收入的冲击效应等问题。

2025-11-14 11:00:42 147

转载交互项要不要加？理论解释与实操建议

在实证分析中，我们经常面临如下选择：在线性回归模型中，是否需要为两个自变量加入交互项？更具体地说，当我们有两个连续自变量 XX 和 ZZ 时，真实的数据生成过程可能是但在实际建模中，研究者往往只估计不含交互项的简单模型主效应的估计值在大小和方向上会偏离真实值到什么程度？检验交互项显著性的统计功效会受到多大影响？从模型泛化性能的角度看，含交互项的模型与不含交互项的模型，哪个在总体层面表现更好？

2025-11-14 10:57:32 165

转载聊统计：读数据科学，年薪百万？

文章摘要：本文以“数据科学毕业生年薪百万”的传言为例，用通俗易懂的方式讲解统计学基本概念。通过虚构案例，作者阐释了如何用假设检验验证这一说法的可信度。从定义总体（所有数据科学毕业生）和样本（随机抽取的100份简历数据）入手，建立了零假设（H₀：μ=100万）和备择假设（H₁：μ<100万）。文章重点说明了假设检验的核心逻辑：在H₀成立的假设下，通过计算样本数据出现的概率（p值）来判断是否拒绝原假设。文中还穿插了生动的法律类比（无罪推定），使统计概念更易理解。

2025-11-08 09:00:00 146

转载交互项不显著≠没有调节效应：用InteractionPoweR进行检验功效分析

摘要：本文探讨了交互项在实证研究中的检验功效问题，指出"交互项不显著≠无调节效应"。通过介绍R包InteractionPoweR，文章提供了评估交互效应统计功效的实用方法，包括前瞻性设计和事后解释分析。该工具克服了传统功效分析的局限性，能够处理变量相关性、测量误差等现实因素，帮助研究者判断样本量是否足够检测目标效应，为交互效应研究提供了更可靠的统计基础。（149字）

2025-11-07 13:52:25 158

转载平行趋势不显著≠平行趋势成立：pretrends 带你看清 DID 风险

本文探讨双重差分法(DID)中事前趋势检验的局限性。传统检验通过判断处理前系数是否显著来评估平行趋势假设，但存在低功效问题——即使趋势不同，检验也可能无法识别。Roth(2022)提出应对事前趋势检验进行功效分析，评估其识别趋势差异的能力。Stata命令pretrends可量化检验功效，帮助研究者更可靠地判断平行趋势假设。此外，文章还指出通过检验的样本可能存在选择偏误，建议结合贝叶斯因子等方法提高因果识别的可信度。这些方法有助于弥补传统事前趋势检验的不足，提升DID研究的严谨性。

2025-11-05 19:58:07 240

转载知网小技巧：下载论文封面和目录

知网实用技巧：快速下载期刊封面及目录在学术评审中，常常需要提供期刊封面和目录。本文介绍了通过中国知网直接下载高清版本的方法：1）检索目标期刊；2）进入期刊主页选择期号；3）点击"原版目录浏览"；4）可选择下载CAJ或PDF格式（通过打印功能另存为PDF）。该方法比传统拍照/扫描更便捷高效，且能保证文件清晰度，适用于学位申请、职称评定等场景。

2025-11-03 16:50:55 290

转载 I4R网站：让复现研究成为社会科学的新常态

本文介绍 I4R（Institute for Replication），一个专门从事复现研究的国际学术机构。文章梳理了 I4R 的组织结构、运作模式及其提供的资源和服务，重点强调了复现研究在提升社会科学研究可信性方面的重要作用。通过介绍 I4R 的全球协作网络、标准化复现流程和开放参与渠道。

2025-10-30 16:37:18 102

转载 EJD平台：13000篇顶刊论文的复现数据和代码

EJD:Find Economic Articles with Data 是一个整合15本顶级经济学期刊13000多篇论文数据与代码的一站式平台。它解决了论文复现中资料分散、检索困难的问题，通过自动化技术将期刊官网的数据、代码与README文件集中管理。平台提供期刊筛选、代码类型识别等高级功能，能直观显示每篇论文的软件环境和数据完整性。EJD由德国乌尔姆大学开发，持续更新，免费提供这些资源，可直接用于科研和教学。

2025-10-29 08:35:58 399

转载中心极限定理完败Box-Muller方法：快速生成正态分布随机数

本文介绍了两种生成正态分布随机数的方法：中心极限定理(CLT)和Box-Muller转换。作者首先回顾了正态分布的基本概念和性质，包括其概率密度函数和累积分布函数。通过中心极限定理，作者展示了如何利用伯努利分布生成标准正态分布的随机样本，并验证了其有效性。文章还介绍了Kolmogorov-Smirnov检验方法，用于比较样本分布与参考分布的一致性。最后通过Python代码实现了CLT方法生成正态分布随机数，并与标准正态分布进行对比验证。该方法简单高效，在n=12次伯努利实验时就能生成良好的正态分布近似。

2025-10-26 19:43:48 73

转载前因后果，一图了然：基于bnlearn的因果推理与Python实操

本文介绍了基于Python工具包bnlearn的贝叶斯网络因果推理方法。bnlearn能自动完成结构学习、参数估计、推理与可视化，帮助研究者发现和验证变量间的因果关系。文章详细讲解了bnlearn的三大核心算法：结构学习（推断变量依赖关系）、参数学习（估计条件概率分布）和推理预测（正向/逆向推理），并提供了安装配置指南和常见问题解决方案。该工具适用于从相关性分析转向探索因果结构、处理多变量复杂网络等场景，是因果推理的"可视化显微镜"。

2025-10-25 09:53:21 92

转载伍德里奇新作-kappalate 命令：Abadie‘s Kappa 和加权局部平均处理效应估计

摘要：本文基于Słoczyński等（2025）的研究，探讨了Abadie's kappa加权方法在局部平均处理效应（LATE）估计中的应用。通过理论分析和实证检验，文章比较了规范化与非规范化加权估计量的性能，发现规范化估计量在结果变量编码和尺度变化下更具稳健性。研究建议在工具变量框架下优先使用规范化估计量，并提供了Stata命令包kappalate实现该方法。论文强调了工具变量的相关性和排除性假设，以及单调性和强重叠条件的重要性，为实证分析提供了可靠的解决方案。

2025-10-25 09:48:42 125

转载 Python明星包-PyPortfolioOpt：投资组合优化分析

PyPortfolioOpt是一个实现投资组合优化的Python工具包，涵盖均值-方差优化、Black-Litterman模型等经典方法。该库提供300多种优化技术模块，支持资产权重优化和风险管理。安装方式包括PyPI、Poetry和Docker。示例代码展示了如何构建最大化夏普比率的投资组合，并转换为实际可购买的股票数量。现代投资组合理论（MPT）是该库的核心理论基础，通过数学优化平衡预期收益和风险。MPT虽然强大，但存在参数估计和实际应用的困难，如收益估计不确定性和协方差矩阵偏差等问题。

2025-10-23 09:00:00 105

转载 FinanceDatabase：涵盖30万条全球金融数据的平台

本文介绍了FinanceDatabase(FD)——一个开源的全球金融工具数据库，涵盖30多万条金融工具数据，包括股票、ETF、基金等7大类资产。FD通过整合全球主要交易所数据，提供多维度分类信息，解决了金融数据分散、分类不统一等问题。文章详细说明了FD的安装方法、基础调用方式，以及两种核心查询功能：基于预设分类的精确筛选select()方法和基于关键词的灵活搜索search()方法。FD可与财务数据结合，为量化投资和研究提供全面支持。

2025-10-22 18:10:05 112

转载 Python 爬虫：爬取 Seeking Alpha 的财报电话会议文本

摘要：本文介绍使用Python和Playwright库分两步爬取SeekingAlpha网站上的财报电话会议文本。第一步按公司代码收集会议链接，第二步提取会议正文。文章详细说明了技术实现要点，包括动态加载处理、验证码应对和断点续爬功能，为金融研究提供高质量文本数据获取方案。代码和样本数据可在GitHub仓库获取。

2025-10-22 18:03:44 107

转载 Bayes+IPW：如何贝叶斯倾向得分和逆概率加权估计政策效应

本文探讨了贝叶斯统计与因果推断的结合问题，特别是如何在贝叶斯框架内使用逆概率加权（IPTW）估计政策效应。针对传统频率学派IPTW技术与贝叶斯方法融合的结构性矛盾，作者提出了一种折衷方案：先用贝叶斯模型估计倾向得分，通过多次抽样构造IPTW，最后合并结果以反映设计阶段的不确定性。文章以模拟的蚊帐干预疟疾风险为例，详细介绍了该方法在R语言中的实现步骤，包括模型构建、倾向得分计算、加权分析和结果合并等关键环节，并提供了完整的代码示例。文中还讨论了诊断步骤和替代策略，为贝叶斯因果推断的实际应用提供了实用指南。

2025-10-20 08:59:59 85

Stata101：人手一份的入门指南-连玉君

profile.do

空空如也