自然语言处理
Bonyin
这个作者很懒,什么都没留下…
展开
-
fasttext词向量迁移
词向量迁移原创 2023-01-19 16:38:21 · 829 阅读 · 0 评论 -
FastText工具使用案例
fasttext工具原创 2023-01-19 14:47:07 · 514 阅读 · 0 评论 -
文本向量化
NLP里面文本向量化的过程介绍原创 2023-01-17 08:55:23 · 743 阅读 · 0 评论 -
Bert模型系列一:输入到底是什么东西呢?
bert的输入是什么。首先放上bert论文的地址:添加链接描述上图是论文中给出的bert的输入的结构图:输入由三部分组成:1.token embedding2 segment embedding 段向量, 其中端对应的就是inputs的一句话, 句子末尾都有加[SEP]结尾符,两句拼接开头有[CLS]符号。是因为BERT里面的下一句的预测任务,所以会有两句拼接起来,上句与下句,上句...原创 2020-03-16 00:20:43 · 5007 阅读 · 2 评论 -
关于transformer机制的理解
transformer机制的论文来源:谷歌论文《Attention all in you need》\论文地址:添加链接描述该模型的架构图如下所示:上面图中左边是encoder机制,右边是decoder机制。encoder机制是由6层组成,如下图:每一层的结构如下图所示:假设现在有两个单词(word1,word2)经过embedding之后的向量上图中(x1,x2),输入到s...原创 2020-03-08 12:53:31 · 1894 阅读 · 0 评论 -
关于判别式模型和产生式模型的区别
首先说明图片来源于《NLP自然语言处理理论与实践》郑捷著原创 2020-01-08 18:30:08 · 177 阅读 · 0 评论 -
信息熵的介绍
首先是抛出信息的熵的计算公式:其中p(xi)代表的是随机事件X取值为xi的概率值,信息量是对信息的度量,和对时间的度量是s(秒)是一样的。当我们在考虑一个离散随机变量X的取值的时候,每一个取值都代表着我们接受到了多少对应的信息。所以信息大小跟随机变量的概率大小有关系的。随机变量的概率越小,则信息越大;概率越大则信息越小。比如太阳从东边升起来了(必然事件,则信息很小)。所以说呀,一个...原创 2019-02-09 08:08:20 · 704 阅读 · 0 评论 -
下面我们来定义条件熵
由上一篇介绍的信息熵,现在我们来引出条件熵的概念:在给定X的条件下,Y的条件概率分布的熵对于X的数学期望。现在设有随机变量(X,Y),其联合概率分布为:条件熵H(Y|X)表示在随机变量X的条件下随机变量Y的不确定性。下面给出条件熵的公式推导:注意,这个条件熵,不是指在给定某个数(某个变量为某个值)的情况下,另一个变量的熵是多少,变量的不确定性是多少?而是期望!因为条...原创 2019-02-09 09:51:55 · 549 阅读 · 0 评论 -
信息增益的介绍
在前面的两篇文章中我们介绍了信息熵和条件熵。信息熵代表的是随机变量的复杂度(不确定度)。条件熵代表的是在某一个条件下,随机变量的复杂度(不确定度)。现在信息增益=信息熵-条件熵。换句话说,信息增益代表了在一个条件下,信息复杂度减少的程度。在决策树算法中的关键问题时特征的选择,当有多个特征的时候,我们选择哪个特征来进行分类呢?或者是按照什么标准来选择特征呢?这个问题我们利用信...原创 2019-02-09 10:12:22 · 3836 阅读 · 0 评论