自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(19)
  • 收藏
  • 关注

原创 机器学习视角下的因果推断-阅读笔记

机器学习视角下的因果推断 (qq.com)总结:受试者效应(实验组效果)的可靠性,会受到样本不能完全代表总体的这个条件限制的影响。也就是说不可能对所有样本做试验,也不可能保证样本的分布与总体分布一定一致,因为总体分布通常不可知。保证效果可靠关键是要保证随机性,或者说,实验组与对照组足够相似。有些什么方法呢:1、匹配。一是根据协方差相似度匹配。二是PSM,倾向性得分匹配。对每个样本计算出现的概率,就是所谓倾向性得分,是在给定样本特征X时,不同样本接受处理的条件概率。

2022-03-16 21:42:59 1260

原创 因果推断和人工智能

具有因果推断能力,是未来实现强人工智能的必要因素。强人工智能,可类比于生活中真实的人类。目前的人工智能与真实人类的最大差别,在于现在的人工智能只能执行特定领域的特定目标,缺失迁移的能力。迁移需要从知识中抽象出底层逻辑,需要能知道不同领域之间哪些逻辑仍然适用,哪些不适用了。所以未来的强人工智能,应该具备人类一样在实践中纠错的能力。意味着他像人一样会自我怀疑。最难的一点是如何把握自信与自卑之间的尺度。对于人类而言,这一点同样很难。人最难的就是在自己认知领域之外的事情。如何获取正确的知识?如何判断别人是对的

2021-04-17 23:58:08 630

原创 对5年数据分析工作的总结

从事数据工作至今已五年多。忆往昔,还看今朝。就聊聊,数据部门这个角色承担的职责,以及如何完成好这些职责。企业数字化,信息化的加速是整个时代的趋势。数据部门可类比于部队中的情报部门。或者类比成人体的中枢神经系统。终极目标。用一句话来总结:通过信息化,提升企业决策效率。具体拆分成三个重点职能。第一:指标通过维护指标体系,帮助重要的决策者。及时掌握业务情况并做出准确判断。比如对长期业务盈利的预期,对当前风险的判断。第二:实验...

2021-02-23 12:19:50 614 6

原创 L1L2正则化

要学习的链接:机器学习中的范数规则化之(一)L0、L1与L2范数https://blog.csdn.net/bitcarmanlee/article/details/51932055机器学习中的范数规则化之(一)L0、L1与L2范数https://blog.csdn.net/zouxy09/article/details/24971995...

2020-02-17 22:32:50 179

原创 笔记-统计学习方法-第一章01

一、学习的定义:赫尔伯特·西蒙:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。Tom Mitchell ,机器学习:计算机程序可以在给定某种类别的任务 T 和性能度量 P 下学习经验 E ,如果其在任务 T 中的性能恰好可以用 P 度量,则随着经验 E 而提高。我混合一下,定义:学习是一个过程,目的是提升系统(system)在新数据上的表现,手段是利用历史数据修正系统。...

2020-02-16 22:37:41 183

原创 世界运转规律

今天享受了,没学习,该打,羞耻。但是吃了火锅,看了歌手,聊了人生。每天发博客的目标没完成呢,咋整?流水帐来凑。但并不能说,今天没进步,没收获。聊人生,也是很考验表达能力的。对亲爱的室友,输出了对世界是如何运转的我的理论。摘要如下:1、世界是被因果论支配的。预测:所有人在做的事都是从历史发生的事找规律,根据规律,去判断下一时刻会发生什么,然后决定下一个时刻的选择,是让它发生,还是阻止它...

2020-02-16 00:31:42 926

原创 我的数据科学路-未解之题

为什么我要知道统计学,最小描述长度,最大似然估计,最小二乘估计,大数定律,贝叶斯,信息熵,辛普森悖论,假设检验,混淆矩阵,F1值,p值,置信区间,基尼系数,数据分布,自由度,方差。经典逻辑,量子计算。这些概念,帮助我,从纷繁复杂的表象中获得真相,从不确定中获得确定的规律。问题是,这么多要学的东西,我先学哪个,最实用?先列问题:1、为什么L1、L2正则化,可以降低模型的过拟合?2...

2020-02-14 16:36:57 74

原创 我为什么要学习?

我为什么要学习?为了更聪明,更有逻辑,更能看透本质。学习什么?人工智能算法,统计学,数学。用来干什么?1⃣️、对眼前工作。更准且稳的分类模型,是可以带来直接经济效益的。有利于公司业务。更具体是,1、归一化原始数据练一个逻辑回归。2、从准确率召回率图,重新分箱。2⃣️、我的长期目标。假如我到了一个,真正大业务量的公司。可能的处境?我的新直系领导对我的期望会是?我对这家公司的业绩...

2020-02-13 23:58:15 156

原创 笔记-t检验

t检验是戈斯特为了观测酿酒质量而发明的,并于1908年在Biometrika上公布。单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。即:其中为样本平均数, 自由度:v=n - 1为什么这公式长这样?原理是:当总体服从正态...

2020-02-12 23:05:26 1167

原创 笔记-彻底理解样本方差为何除以n-1

对,https://blog.csdn.net/Hearthougan/article/details/77859173,的划重点,以及解读:无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。首先定义总体样本是N(通常是不可全部获得的,比如全世界人口的身高值)。抽样样本是x1,x2...xi。设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式...

2020-02-11 18:23:31 2616

原创 the book of why笔记_2_从海盗到豚鼠

海盗是皮尔逊,相关系数的方法的创造者,高尔顿的学生。海盗继承和发展了高尔顿对因果关系的否定。高尔顿曾有机会在‘身高向均值回归’的研究中,曾非常接近创造新的对因果关系研究的方法。他发明了高尔顿板模拟身高的正态分布,是对中心极限定理非常生动的诠释。但因为在成功是否能世袭的研究中的一个,‘运气可以积累传给下一代’的错误假设,使他无法自圆其说。于是走向了彻底否定对因果关系的研究的道路。皮尔逊继承和...

2019-07-10 12:27:37 273 2

原创 the book of why笔记_1

为什么需要因果推断这一门新科学。因为传统统计学,只能定义关联,不能定义关联的因果关系。关联,是有方向的。如果一个对象,是另一个对象存在的前提条件,那么它就是另一个对象的‘因’。假如A是B的因,就说明A变,B一定会变。但B变,A不一定会变。这种动态关系是统计学所不能描述的。而传统逻辑学,定义了命题。定义了因果这种决定关系。但是它没有对概率的处理,也就是不确定性。A,B之间的因果关系可能...

2019-07-09 11:52:01 1150

原创 sql之道

sql本质来说也是一种语言。人与数据库沟通的语言。就像其他的计算机程序语言一样。即是写给机器看的又是写给人看的,两者之间更重要的是写给人看的,给自己看。写完出来的东西不是面巾纸用完一次就丢的。就好像你练书法写狂草,回过头来看自己都不认识了。这个东西就失去了它本来的表达意义。代码整洁之道:写代码就是写文章。文章是艺术,艺术要优雅。写sql=搞艺术。一切术,都是为了简洁优雅的表达。简洁,是道,大道至简...

2018-05-08 12:00:59 168

原创 宇宙信息论

找到世界运行的规律,就能顺应它的规律去解决问题。所以我尝试用信息论和能量守恒,来解释我们整个世界的运行规律。一、世界是由信息体组成的。信息体=维+结构。信息体有层次结构。信息体能接受会表达。二、智慧是在某维度的接收和表达。三、文明的追求是作为一个整体拥有更大的能量,它的进化的方向是:文明有序

2018-01-05 10:31:24 1312

原创 数据分析师职业规划

为什么需要数据分析?没有衡量就没有改进。数据是对现实世界的映射,能帮助我们建立量化的逻辑体系。数据中隐含着规律。数据分析最重要的能力?规划解决方案(识题-》拆解-》排序-》反馈)+解决具体问题(统计学+机器学习):

2017-05-19 10:37:46 827

原创 傅盛-认知升级论-总结

所谓成长就是认知升级核心是说,人与人最大区别是认知不同,认知决定了你的行为,所以成长在于建立正确的认知,有对的认知才能做对的事。阻碍认知升级的最大障碍是不知道自己不知道。认知升级的途径是知道大趋势关注变化,跟别人请教,从行动中修正。一、什么是认知?傅盛说是思维方式。我补充是,你头脑中的事实和逻辑。就是你看到的世界是什么样子的,它会怎么运转。从一个事实出发,推

2017-05-05 20:50:02 1014

原创 机器学习-笔记

机器学习定义:计算机程序在经验(E)学习中,优化算法的性能(P)。用机器学习先明确目标:在什么样的假设情况下解决什么问题。用模型前要假设数据分布。分类和回归的区别是离散还是连续。在特征互相独立时,朴素贝叶斯是最优分类器。0频问题:某些事件一次也未发生,在用贝叶斯统计时候,就会出现概率为0的问题。违背朴素贝叶斯基本假设,输出依赖于所有假设。解决方法:数

2017-05-04 22:10:10 247

原创 Python笔记-数据探索和预处理

目的:通过检验数据集质量、绘制图标、计算某些特征量等手段,对样本数据集的结构和规律进行分析。有助于选择合适的数据预处理和建模方法。1、质量分析目的:检查脏数据。脏数据定义:缺失值异常值不一致重复或特殊符号1.1 缺失值处理:删除插值不处理插值方法:均值/中位数/众数固定值最相似样本回归函数(拉格朗日、牛顿)1.2

2017-03-19 20:01:26 1489

原创 Python笔记-数据挖掘建模过程

目标定义任务理解,指标确定数据采集建模抽样,质量把控,实时采集数据整理数据探索,清洗,变换构建模型模式发现,构建,验证模型评价设定标准,多模型对比,模型优化模型发布模型部署,重构

2017-03-19 19:57:01 1992

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除