自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爱数据爱统计

一个迷迷糊糊的幸运菇凉

  • 博客(92)
  • 资源 (2)
  • 收藏
  • 关注

原创 东方财富股吧文本爬取及分析案例

模块化使得代码可以被多个程序和项目共同使用,如果需要多次使用相同的代码,只需要将代码保存在一个模块中,然后在需要的地方导入即可。从而提高了代码的可重用性,减少了重复开发的工作。:模块化将代码分解为更小、更容易理解的组件,可以更容易地理解每个模块所做的工作,使得代码更加清晰易懂,提高代码的可读性。:模块化使得代码更加模块化、组合和重用,从而降低了代码的复杂度,避免了代码过于臃肿和混乱。:模块化将代码分解为更小的组件,可以更容易地编写单元测试,使得测试和调试变得更加容易,以确保每个模块都按照预期工作。

2024-06-29 18:12:25 780

原创 python数据分析--- ch14-15 python计量回归模型

计量回归模型

2024-06-18 10:42:55 449

原创 python数据分析--- ch12-13 python参数估计与假设检验

参数估计与假设检验

2024-06-17 06:34:17 1210

原创 python数据分析---ch11 python数据描述性统计

零基础入门,python描述性统计

2024-06-16 16:23:02 1077

原创 python数据分析---ch10 数据图形绘制与可视化

零基础入门,python统计分析

2024-06-15 08:22:32 844

原创 python数据分析--- ch8-9 python函数及类

零基础入门,python趣味实例边学边练

2024-06-14 08:12:11 973

原创 python数据分析--- ch6-7 python容器类型的数据及字符串

零基础入门,python趣味实例边学边练

2024-06-13 09:00:00 873

原创 python数据分析--- ch3-5 python数字类型、算术运算符及流程控制语句

零基础入门,python趣味实例边学边练

2024-06-12 07:45:09 601

原创 python数据分析--- ch1-2 python初识入门

零基础入门,python趣味实例边学边练

2024-06-11 15:28:04 1103

原创 金融数据分析----code详解版

案例:金融数据分析----code详解版1.引言1.1案例分析目标1.2涉及知识点1.3案例分析流程2.数据获取`涉及知识点:`2.1安装*tushare*库2.2获取Token2.3导入tushare库并设置Token2.4获取数据2.6保存数据3.数据预处理`涉及知识点:`3.1读取已有数据3.2清理数据4.数据可视化`涉及知识点:`5.基本走势分析`涉及知识点:`5.1描述性统计分析5.2历史走势分析6.周期效应分析`涉及知识点:`6.1周度效应6.1.1整体周效应分析6.1.2年度周效应分析6.2月

2024-06-04 09:45:34 534

原创 python常见数据的存取

python数据的存取

2024-05-14 08:32:48 421 2

原创 dataframe数据常用python操作

dataframe的常用python操作

2024-05-14 08:16:58 696

原创 市场调查中的信度和效度分析原理及python实现示例

准则效度又称为效标效度,是根据已经得到确定的某种理论,选择一种指标或量表作为准则即效标,计算量表得分与准则间的相关系数,用于评估一个量表(或测量工具)与一个已被确定为准则的变量之间的关联程度,这种相关系数被称为准则效度系数。根据准则效度系数的大小判断所采用量表与准则之间的一致性程度,一致性程度越高,说明所采用量表的效度越高;该系数测量了量表中各项之间的相关性,通常在0到1之间,较高的值表示较高的内部一致性。区别效度是指利用相同的量表测量不同的概念或特征之间的相关程度,相关程度越低,区别效度越高。

2023-09-13 17:48:45 5574

原创 因果推断阶段系列24[阶段2-6]----偏置/正交机器学习--R-Learner

本节介绍的元学习器实际上是在它们被称为元学习器之前就出现了。它来自一篇2016年的精彩论文,为因果推断领域开辟了一个富有成果的研究领域。这篇论文名为。

2023-07-04 14:28:43 303

原创 因果推断阶段系列23[阶段2-5]----元学习器 meta-learners

简要回顾一下,前几节介绍了处理效应异质性,即确定不同个体对处理的反应方式。τxEYi​1−Yi​0∣XEτi​∣X若在连续情况下则为EδYi​t∣X。换句话说,即了解个体对处理的敏感程度。这在我们无法对所有人进行处理并需要对处理进行优先级排序的情况下非常有用,例如当您想要提供折扣但预算有限时。之前,我们看到了如何转换结果变量Y,以便将其插入预测模型并获得条件平均处理效应(CATE)估计。目标转换会增加方差。

2023-06-26 12:12:52 352

原创 果推断阶段系列22[阶段2-4]----目标转换后的估计器

因果推断阶段系列22[阶段2-4]----目标转换后的估计器1. 问题提出2. 目标转换3. 连续性处理效应4. 非线性处理效应小结参考文献前面已经学习了在处理样本不是随机分配的情况下存在混杂偏差,如何消除数据偏差。这对于解决因果推断中的识别问题有一定帮助。换句话说,一旦个体是可交换的,或者 $ Y(0), Y(1) \perp X$,就可以学习到处理效应。实际上还远未完成。识别意味着可以找到平均处理效应。换句话说,我们知道处理的平均效应有多大。当然,这是有用的,因为它帮助我们决定是否应该推出某种处理方

2023-06-20 13:03:09 215

原创 因果推断阶段系列21[阶段2-3]----因果模型评估

大部分关于因果性的资料中,研究人员使用模拟数据来检查他们的方法是否有效。就像我们在一章中所做的那样,模拟生成关于Y0iY_{0i}Y0i​和Y1iY_{1i}Y1i​的数据,以便检查模型是否正确捕捉到了处理效应Y1i−Y0iY1i​−Y0i​。这对于学术研究来说是可以的,但在现实世界中,并没有这样的奢侈条件。在将这些技术应用于工业领域时,经常一次又一次的被要求证明为什么我们的模型更好,为什么它应该取代当前的生产模型,或者为什么它不会失效。

2023-06-12 11:53:33 587

原创 python 练习100题及答案解析

变量操作符格式等基础(1~8)序列索引和切片(9~14)列表List(15~19)字典Dict(20~29)循环Loop(30~35)函数Function(36~45)字符串String(046~050)循环与文件(051~056)多级字典与JSON(057~062)循环条件控制(063~068)英汉翻译字典(069~071)日期时间(072~076)用户名和密码检测(077~080)文件处理统计(081~086)文件管理(087~095)爬虫Requests(96-100)

2023-06-09 14:19:01 1624

原创 因果推断阶段系列20[阶段2-2]----处理效应的异质性

现实中,事情不是完全黑白分明的。我们关注的不仅仅是平均处理效应,而是允许处理对某些个体产生积极影响,而对其个体产生负面影响。每个个体特征可能对处理产生不同的反应,我们希望做个性化处理,只将处理/干预应用于最能够对其产生良好反应的个体,即将关注的重点从平均处理效应转向处理效应的异质性。在这个世界中,我们不是被动的观察者,所以仅仅估计 E[Y|X]并不是完全正确的。这就是需要进行因果推断的原因,我们需要为我们人为参与数据生成过程的部分添加另一个要素,这个要素就是处理(treatment)。

2023-06-06 11:45:48 455

原创 pytorch2----统计软件与数据分析Lesson17----利用pytorch构建LSTM预测股票收益率详细教程

记得在自己代码的同级目录下创建一个名为result的文件夹用于保存相关的结果和可视化图。

2023-05-31 16:33:20 1474

原创 pytorch1----统计软件与数据分析Lesson16----pytorch基本知识及模型构建

在Numpy中,你可能有一个具有三维空间的数组,对吧?从技术上来说,这就是一个张量。但是,为了简单起见,调用向量和矩阵张量也很常见——所以,从现在开始,所有的东西都是标量或张量。PyTorch的张量与它的Numpy具有等价的函数,比如ones(), zeros(), rand(), randn(),等等。在下面的例子中,我们分别创建一个:标量、向量、矩阵和张量——或者,换句话说,是一个标量和三个张量。输出:size()shapeattribute.输出:输出:view()reshape()

2023-05-30 23:06:14 1325

原创 因果推断阶段系列19[阶段2-1]-机器学习预测模型与因果推断

唯一的问题是,在机器学习的所有炒作中,我可能需要让您回归现实,并以非常实际的术语来解释它的真正作用。至于自动驾驶汽车,您可以将其看作不是一个复杂的预测问题,而是多个复杂的预测问题:根据汽车前方的传感器预测轮胎的正确角度,根据车周摄像头预测刹车的压力,根据 GPS 数据预测油门的压力。这可能是您在进行在线营销时的投标价格,也可能是您运输的成本,或者是您需要与客户进行的任何培训,以便他们能够使用您的产品。交叉验证的思想是模拟真实世界,在该世界中,我们在已有数据上估计模型,但在新的、未见过的数据上进行预测。

2023-05-30 12:04:32 828

原创 统计软件与数据分析Lesson15----梯度下降(Gradient Descent)过程可视化

从翻译应用到自动驾驶汽车,机器学习 (ML) 技术为我们使用的一些最重要的技术提供支持。本课程介绍了机器学习背后的核心概念。机器学习提供了一种解决问题和回答复杂问题的新方式。基本上,机器学习是指训练一个软件(称为模型)以从数据进行实用的预测的过程。机器学习模型表示机器学习系统用于进行预测的数据元素之间的数学关系。例如,假设我们要创建一个预测降雨量的应用。我们可以使用传统方法或机器学习方法。我们使用传统的方法创建基于物理学的地球大气层和表面表征,计算大量的流体动力方程。这非常困难。

2023-05-26 13:08:38 1461 1

原创 因果推断系列18-断点回归设计(Regression Discontinuity Design,RDD)

你不能在没有芽的情况下长出一棵树,你不能从一个地方瞬间传送到另一个地方,伤口需要时间来愈合,自然的平滑性令人印象深刻。即使在社会领域,平滑性似乎也是一种常态。你不能在一天内让一个企业发展壮大,要建立财富需要持续不断的努力和坚持,学习线性回归需要多年的时间。在正常情况下,自然界是非常协调的,不会跳跃太多。所以,。这些事件通常伴随着与正常事物相反的对照情况:如果发生了奇怪的事情,如果自然以不同方式工作会发生什么。探索这些人为跳跃是断点回归设计的核心。基本设置如下所示。假设你有一个处理变量T和潜在结果Y。

2023-05-25 11:51:30 1027

原创 因果推断系列17 - 合成控制法

因果推断系列17 - 合成控制法Synthetic Control 1. 神奇的数学技巧2. 时间变量3.合成控制vs线性回归4. 外推?5. 推断小结1. 神奇的数学技巧研究双重差分法(DID)时,我们有来自两个不同城市(Porto Alegre和Florianopolis)的多个客户的数据。数据跨越了两个不同的时间段:在Porto Alegre进行市场干预之前和之后以提高客户存款。为了估计处理效应,我们进行了一次回归,得到了DID估计量及其标准误差。在这种情况下,我们有很多样本,数据是个体层面的。

2023-05-22 14:43:34 1112

原创 因果推断系列16-面板数据与固定效应

加载第三方包在中,我们探讨了一个非常简单的双重差分分析(DID),其中有一个接受处理的实验组和一个对照组(分别是城市POA和FLN),仅有两个时期,即干预前和干预后时期。但是如果我们有更多的时期呢?或者更多的组?结果证明,这种情形在因果推断问题中也非常常见,即:面板数据。面板数据是指我们在多个时间段内对同一个体进行重复观察的情况。在政府政策评估中,这种情况经常发生,我们可以跟踪多个城市或州的数据,以及多年的时间。但在工业领域中,这种情况也非常普遍,公司会在多个星期和月份内跟踪用户数据。

2023-05-12 14:58:30 609

原创 案例2:东方财富股吧文本分析----code模块封装命令行运行版

模块化使得代码可以被多个程序和项目共同使用,如果需要多次使用相同的代码,只需要将代码保存在一个模块中,然后在需要的地方导入即可。从而提高了代码的可重用性,减少了重复开发的工作。:模块化将代码分解为更小、更容易理解的组件,可以更容易地理解每个模块所做的工作,使得代码更加清晰易懂,提高代码的可读性。:模块化使得代码更加模块化、组合和重用,从而降低了代码的复杂度,避免了代码过于臃肿和混乱。:模块化将代码分解为更小的组件,可以更容易地编写单元测试,使得测试和调试变得更加容易,以确保每个模块都按照预期工作。

2023-05-06 01:00:11 789

原创 案例2:东方财富股吧文本分析----code函数封装版

通过对用户的发帖和评论行为进行分析,可以了解投资者的行为特点,帮助股市研究人员和投资者更好地了解市场参与者的行为和态度。:通过分析股吧帖子的发布时间和更新时间,可以了解投资者的活跃时间段,从而根据市场波动情况制定投资策略。:通过对帖子主题进行关联分析,可以找出不同话题之间的联系和关联,帮助投资者理解市场的复杂性和变化规律。:通过统计帖子的阅读数和评论数,可以得到热门话题的排行榜,从而了解市场热点和投资者的关注度。:通过对评论内容进行情感分析,可以了解投资者的情绪波动,帮助投资者把握市场情绪变化。

2023-05-06 00:03:04 900

原创 因果推断系列15----双重差分法

这是非随机数据的常见问题,其中决定对某个地区进行处理的决策基于其对处理的潜在响应能力,或者当处理针对表现不佳的地区时。以我们的市场营销示例为例,我们决定在Porto Alegre市测试广告牌,不是为了检验广告牌的总体效应,而是因为那里的销售表现不佳。差分法常用于评估宏观干预的效果,例如移民对失业率的影响、枪支法律变化对犯罪率的影响,或仅仅是由于市场营销活动导致的用户参与度的差异。Jul是七月份的虚拟指标,或者说是干预后的月份。这个假设是说,在没有干预的情况下,后期的结果将与初始期的结果相同。

2023-05-04 10:13:48 626

原创 因果推断系列14----双重稳健估计

双重稳健估计思想讲解及代码实现

2023-04-27 10:18:35 1202

原创 因果推断系列13----倾向得分

加载第三方包即相应的全局设定。

2023-04-19 17:14:19 579

原创 统计软件与数据分析Lesson9----爬虫解析库Beautiful Soup

统计软件与数据分析Lesson9----爬虫解析库Beautiful Soup知识点总结1.requests 模块1.1 查看requests功能函数1.2 发送请求1.3 传递URL参数1.4 获取响应内容2.Beautiful Soup模块2.1 解析器2.2 对象类型2.2.1 Beautiful Soup2.2.2 标签Tag2.2.3 可遍历的字符串NavigableString2.2.4 注释Comment2.2.5 对象比较2.2.6 复制对象2.3 遍历2.3.1 子节点 `.content

2023-04-14 14:17:38 1085 1

原创 统计软件与数据分析Lesson8----HTML初识

HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)HTML 不是一种编程语言,而是一种标记语言 (markup language)标记语言是一套标记标签 (markup tag)HTML 使用标记标签来描述网页。

2023-04-14 13:09:23 455

原创 统计软件与数据分析Lesson7----字符串相关操作

实现多行字符串最终在一行显示,用在写代码时便于观看变量内容,输出时即使字符串很长但不影响内容的查看这种情形。使用下标索引检索想要查看的字符,索引为左闭右开,从0开始计数。若字符串中的内容有引号,则可以外面单引号里面的内容双引号。字符串的分割,分割后为list形式,通过索引获取想要的内容。字符串不加引号会识别为变量,如果变量在此之前未定义会报错。实现多行字符串的多行显示,可以按照我们自己的意愿进行分行。直接写变量的输出含单引号,即包含了变量的类型提示。print打印的输出的是变量中的内容。

2023-04-14 13:00:20 238

原创 因果分析系列12----匹配

因果分析匹配思想

2023-04-12 19:23:15 631 1

原创 因果分析系列11----不依从性和LATE

不依从性和局部平均处理效应

2023-04-07 00:49:36 276

原创 案例1:金融数据分析----code函数封装版

加载包 import tushare as ts import warnings。

2023-04-01 01:18:15 429

原创 统计软件与数据分析Lesson6-----python函数相关知识点

在 Python 中,函数定义其中,为函数名,parameters是函数的参数列表,可以为空;是函数体,包含一些语句和操作,可以有一个或多个return语句用于返回值;value是函数的返回值,可以为任何类型。该函数返回两个数的和该函数名为,有两个参数x和y,函数体是将这两个参数相减并返回相减的结果。

2023-03-31 23:43:42 400

原创 因果分析系列10----工具变量

工具变量的条件、经典论文示例、数值模拟、两阶段最小二乘

2023-03-30 12:55:57 550

原创 统计软件与数据分析Lesson5---时间序列分析入门

时间序列数据是按照时间顺序排列的数据,每个时间点上都有一个对应的观测值。时间序列数据可以用于对过去和未来的趋势、周期性、随机波动等进行分析和预测。1.股票价格:每天的股票价格是按照时间顺序排列的时间序列数据。2.天气数据:每天的温度、降雨量、风速等天气数据也是时间序列数据。3.交通流量:每小时、每天或每周的交通流量也是时间序列数据。4.网站访问量:每天、每周或每月的网站访问量也是时间序列数据。5.电影票房:每天或每周的电影票房收入也是时间序列数据。

2023-03-24 15:28:45 519

invest-email-biased.csv

invest-email-biased.csv

2023-06-26

causal22.py

causal22.py

2023-06-12

invest-email-rnd.csv causal22

invest-email-rnd.csv causal22

2023-06-12

ice-cream-sales.csv causal21

ice-cream-sales.csv causal21

2023-06-06

ice-cream-sales-rnd.csv causal20

ice-cream-sales-rnd.csv causal20

2023-06-05

LSTM-ReturnPrediction.py

LSTM-ReturnPrediction.py

2023-05-31

601318.csv lesson17数据

601318.csv lesson17数据

2023-05-31

plots-lesson16

plots-lesson16

2023-05-30

customer-features.csv用户特征

customer-features.csv用户特征

2023-05-30

customer-transactions.csv用户转化数据

customer-transactions.csv用户转化数据

2023-05-30

plots-lesson15.py梯度下降可视化相关绘图

plots-lesson15.py梯度下降可视化相关绘图

2023-05-26

sheepskin.csv断点回归

sheepskin.csv断点回归

2023-05-25

drinking.csv 断点回归

drinking.csv 断点回归

2023-05-22

smoking.csv 99提案

smoking.csv 99提案

2023-05-22

run-main-getnews.py

run-main-getnews.py

2023-05-06

getGuBaNews.py

getGuBaNews.py

2023-05-06

run-main-gubaNews.py

run-main-gubaNews.py

2023-05-06

gubaNewsAnalyse.py

gubaNewsAnalyse.py

2023-05-06

中文停用词stopwords.txt

中文停用词stopwords.txt

2023-05-06

guba-news-601318-pages1-30.csv

中国平安股吧数据

2023-05-05

billboard-impact.csv

因果推断系列15-DID-广告效应

2023-04-25

causal13 PSM

causal13 PSM

2023-04-17

因果数据分析 matching

因果数据分析 matching

2023-04-12

causal11 因果分析

causal11 因果分析

2023-04-12

causal12 matching

causal12 matching

2023-04-12

因果推断数据ak91.csv

因果推断

2023-03-30

因果推断-hospital-treatment.csv

因果推断-hospital-treatment.csv

2023-03-15

因果推断collections-email

因果推断collections-email

2023-03-15

因果推断python-wage.csv

因果推断专题使用数据

2023-03-09

因果推断python-enem-scores.csv

因果推断python手册实验用数据

2023-03-09

online_classroom.csv

CSDN因果分析系列相关数据

2021-03-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除