自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Java入门6: 函数式编程

Lambda 函数式编程

2024-06-18 00:12:29 746

原创 Java入门5: 异常

Java异常

2024-06-16 21:24:57 797

原创 Java入门4: 泛型和集合

Java泛型和集合用法介绍及案例(附代码)

2024-06-15 22:26:40 807

原创 Java入门3: 常用类

Java入门3: 常用类

2024-05-15 08:00:00 714

原创 Java入门2: 面向对象

  对象,万事万物皆为对象。面向对象,就是指从这个对象的整体出发,看它由哪些部件组成,可以做到哪些事情。  比如一个人,他有名字、年龄、性别等属性,也有吃饭、睡觉、工作等行为。我们把这些属性和行为封装在一个对象中,就可以很方便地描述这个人。  面向对象的思想,体现的是人所关注对象的信息聚集在了一个具体的物体上。人们就是通过对象的属性和行为来了解对象。  类是对象的抽象,是对一类对象的描述。通过类可以创建出具有相同属性和行为的对象。比如,人类就是一个类,每个人都是这个类的一个实例。  由此可以总结出类的定义:

2024-05-13 23:53:52 651

原创 Java入门1: 基础语法

Java入门1: 基础语法

2024-05-13 23:45:22 688

原创 Clean Code: 程序员的自我修养

Clean Code,生产干净、已维护可以减少攻击者可获得的漏洞。简洁/可读(Simple)可维护(Maintenance)可测试(Testable)可靠(Reliable)高效(Performance)可移植(Portable)安全(Safety)

2024-04-20 19:19:30 889 1

原创 基于BERT的豆瓣电影评论内容情绪分析

以豆瓣电影评论文本的情绪分类为例,说明BERT模型的基本使用方法。

2024-03-05 01:14:50 1260

原创 关于神经网络,了解这些就够了

关于神经网络,了解这些就够了!从感知机到神经网络,从计算图到矩阵运算,掌握这些就能理解神经网络的基础知识。

2024-02-28 23:31:47 729

原创 数据获取:豆瓣电影信息爬取

本文并不是专业的爬虫指导,只能说是一位爬虫菜鸟的学习笔记。仅就粗浅的爬虫经验,总结一些探索过程。

2024-02-06 00:34:41 2357

原创 因果推断《Causal Inference in Python》中文笔记第8章 双重差分

面板数据方法是因果推断中一个令人兴奋且快速发展的领域。其带来的许多承诺都源于一个事实,即拥有额外的时间维度不仅可以让你从对照单元中估算受干预组的反事实,还可以从受干预组的过去中估算。在本章中,你将探索了应用双重差分的多种方法。

2023-11-25 20:29:17 3042 12

原创 因果推断《Causal Inference in Python》中文笔记第7章 元学习器

本章在回归模型中考虑干预变量与协变量的交互,还将通用机器学习模型用于条件平均干预效果的估算:即所谓的元学习器。具体来说,学习了四种元学习器,其中两种仅适用于类别型干预,另外两种适用于任何类型的干预。

2023-11-22 02:14:01 2483 9

原创 因果推断《Causal Inference in Python》中文笔记第6章 效果异质性

本章介绍通过干预异质性实现分析单元的个性化干预,这才是更贴近现实的问题解决方案。

2023-11-20 18:14:14 1886 11

原创 因果推断《Causal Inference in Python》中文笔记第5章 倾向得分

倾向加权涉及对干预分配机制进行建模,并使用模型的预测来重新加权数据,而不是像正交化那样构建残差。在本章学习如何将第4章的原则与倾向加权相结合,以实现所谓的双重鲁棒性。

2023-11-11 01:05:14 836 2

原创 因果推断《Causal Inference in Python》中文笔记第4章 线性回归的不合理有效性

这一章是关于回归的,但是从一个非常不同于你通常在机器学习书籍中看到的角度,回归在这里不是一个预测工具。相反,这里使用回归作为一种主要调整混杂因子的方法,有时作为一种减小方差的技术。这一章的核心是,如果条件独立性成立,正交化作为一种方法,可以使干预看起来像是随机分配的。

2023-11-08 02:08:32 778

原创 因果推断《Causal Inference in Python》中文笔记第3章 图形因果模型

本章中,你主要关注因果推断的识别。我们的目标是学习如何使用图形模型来透明地了解你所做的假设,并了解这些假设需要什么样的关联(因果关系或非因果关系)。要做到这一点,你必须学习关联在图中是如何流动的。下面这张小抄是这些结构的一个很好的总结,所以建议你多加理解:然后,你会发现识别等同于将因果关联流从图表中的非因果关联流中分离出来。你可以通过调整(设置条件限制)某些变量,甚至在图形上进行介入,关闭非因果关联路径,就像你做随机实验的情况一样。

2023-10-27 12:20:52 944

原创 因果推断《Causal Inference in Python》中文笔记第2章 随机实验与统计学回顾

本章的思想是将因果识别与估算联系起来并回顾一些重要的统计概念。这个过程的第一步是识别,就是使用关键假设,使用从数据中估算的可观测统计量来得到不可观测的因果量。第二步介绍了估算过程中使用的统计概念。

2023-10-22 01:15:26 759 2

原创 因果推断《Causal Inference in Python》中文笔记第1章 因果推断导论

因果推断的概念,为什么需要因果推断,因果推断的基础数据表示和基本开展流程。人类的思维天然就具备因果推断能力,即使有时候是错误的。如果说关联关系就是两个变量同时变化,那么因果关系就是一个变量的变化导致另一个变量发生变化。因果推断就是从关联关系中推理出因果关系。

2023-10-16 18:05:13 1765 9

原创 《深度学习进阶:自然语言处理》第8章 Attention

第8章 Attention。

2023-05-28 22:56:25 869 4

原创 《深度学习进阶:自然语言处理》第7章 基于RNN生成文本

例如,我们将LSTMLM在语料库“you say goobye and i say hello.”进行训练之后,我们将“i”作为文本生成的第一且唯一的提示词,此时模型会输出上图左上角的概率分布,我们将概率最大的单词“say”作为下一个时刻的输入,随即生成上图右上角的概率分布,可见概率最大的单词为"hello"。也可以按照概率分布进行抽样,概率大的单词被选中的可能性大,概率小的单词被选中的可能性小,但是都有可能被选中作为下一时刻的输入,这样语言模型就会生成多种多样的文本。下面介绍使用两个RNN实现的方式。

2023-05-26 23:14:05 668 2

原创 《深度学习进阶:自然语言处理》第6章 Gated RNN

参数更新是依靠输出结果与标签数据的差异求得梯度,并通过反向传播将梯度传递给上游的参数,由此输出结果与标签数据的差异体现出的有效信息被参数学习到。假设词汇量为 V,LSTM 的隐藏状态的维数为H,则Embedding层的权重形状为V×H,Affine层的权重形状为H×V。在PTB数据集上学习语言模型的情况下,当LSTM的层数为2~4时,可以获得比较好的结果。使用RNN的模型中,将Dropout层插入在LSTM层的时序方向上,随着时间的推移,信息会渐渐丢失,因Dropout产生的噪声会随时间成比例地积累。

2023-05-09 23:47:40 197

原创 《深度学习进阶:自然语言处理》第5章 RNN

困惑度表示“概率的倒数”。如图5-5左侧的常规CBOW模型所示,窗口为2,窗口内的两个词与输入权重矩阵相乘的结果是想加的,没有保留顺序信息。要基于 BPTT 求梯度,必须在内存中保存各个时刻的RNN层的中间数据,随着时序数据变长,计算机的内存使用量、计算量也会增加,反向传播的梯度也会变得不稳定。由此RNN的输出在自身的循环迭代更新下,记录了之前时刻的输入,是具有记忆能力的神经网络。简单说就是一句话中的某个词发生的概率需要考虑前面所有词的发生概率(后验概率),整个句子发生的概率就是所有词的后验概率的乘积。

2023-05-06 00:05:41 188 1

原创 《深度学习进阶:自然语言处理》第4章 word2vec的高速化

这是典型的多分类问题,解答了“当前单词是什么”的疑问,返回所有单词作为结果的可能性,并且横向对比所有可能性,得出最佳单词。虽然多分类问题得出的结果信息量较大,但最佳单词之外的其他单词的概率作用不大。本章是对第3章的补充,在第3章中介绍的基本原理的基础上,在一些实现的细节上实现计算量的缩减。再回头看看,在多分类的情况下的交叉熵损失函数式(3.2),如果输出层只有两个神经元,则和二分类的式 (4.3) 是完全一致的。对于一组正例与负例的组合,我们将该组内的所有损失相加作为最后的损失。这是非常大的计算量。

2023-05-04 20:00:38 134 1

原创 《深度学习进阶:自然语言处理》第3章 word2vec

基于计数的方法通过对整个语料库的统计数据进行一次学习来获得单词的分布式表示,而基于推理的方法则反复观察语料库的一部分数据进行学习(mini-batch 学习)。输出层的神经元个数需要和单词的个数一致,每个神经元的值对应每个单词的得分,经过softmax函数后就可以得到每个单词作为目标词的概率。基于推理的方法(word2vec)允许参数的增量学习,可以将之前学习到的权重作为下一次学习的初始值,在更新的语料库上继续学习。本章描述的是上一章中提到的单词的分布式表示的新的方法。这意味着神经网络一次只。

2023-04-27 00:09:20 170 1

原创 《深度学习进阶:自然语言处理》第2章 自然语言和单词的分布式表示

理解途径——单词含义。

2023-04-24 11:24:11 187 1

豆瓣电影信息维表,包含30000+部热度电影的基础信息,包括导演/演员名称及对应主页网址,电影类型、出品地区、语言、情节描述等

该数据集为从豆瓣电影网站爬取的电影基础信息,包含30000+部热度电影的基础信息,包括导演/演员名称及对应主页网址,电影类型、出品地区、语言、情节描述等。可以基于此数据集进行电影内容分析、推荐、内容理解等算法探索工作。本数据集已上传至Huggingface网站,可以直接调用Datasets接口获取。 更多信息请参考文章[《数据获取:豆瓣电影信息爬取》](http://t.csdnimg.cn/hHPoW)。

2024-02-22

因果推断书籍《causal inference in python》电子书,《使用Python进行因果推断:科技产业应用》

该书为Matheus Facure所著《Causal Inference in Python: Applying Causal Inference in the Tech Industry》,姑且翻译为《使用Python进行因果推断:科技产业应用》 详情请查看系列读书笔记《使用Python进行因果推断:科技产业应用》啃书(http://t.csdnimg.cn/o0dpV)

2023-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除