![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本蕴含
blank307
这个作者很懒,什么都没留下…
展开
-
机器学习算法中的基本概念
1、Model representation(模型表达)模型表达就是给出输入和输出之间的函数关系式。当然这个函数是由前提假设的,里面可以含有参数。此时如果有许多训练样本的话,同样可以给出训练样本的平均相关的误差函数,也称作损失函数(Loss function)。我们的目标是求出模型表达中的参数,这是通过最小化损失函数来求得的。一般最小化损失函数是通过梯度下降法(即先随机给出参数的一组值,然后更新...转载 2020-03-02 10:26:55 · 238 阅读 · 0 评论 -
文本蕴含日记4——深度学习
1、深度学习的提出深度学习的概念由hinton等人于2006年提出。基于深信度网(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望。随后提出多层自动编码器深层结构。此外lecun等人提出的卷积神经网络是第一个真正多层结构学习算法...转载 2020-03-01 15:37:08 · 382 阅读 · 0 评论 -
文本蕴含日记3——句子编码
1、特征构造中文分词之后需要对数据进行特征构造,也可以说成特征转换。再处理文本数据时,基于“向量空间模型”这一概念,可以通过词袋模型、N-gram模型、词向量来进行特征构造。(1)向量空间模型(VSM:Vector Space Moudle )向量空间模型把文本内容的处理简化为向量空间中的运算,并且以空间上的相似度表达语义的相似度,直观易懂。(2)词袋模型在传统的词袋模型中,对于每一个词...原创 2020-02-26 17:03:43 · 333 阅读 · 0 评论 -
文本蕴含日记2——注意力机制
1、什么是注意力机制(Attention Mechanism)注意力Attention,人类在观察周围环境时,总会优先注意到一些部分来获取自己需要的信息,这些部分就代表了周围环境的某种描述。而注意力机制通过学习不同局部的重要性,再结合起来。对Attention常见的有三种理解:(1)从数学公式和代码实现上attention可以理解为加权求和;(2)从形式上attention可以理解为键值查询...转载 2020-02-24 15:02:11 · 257 阅读 · 0 评论 -
文本蕴含日记1——中文分词
1、什么是分词分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。简而言之,就是将一个句子中的字重新划分组合成词。2、为什么要强调中文分词技术之所以特地强调中文分词,是因为中文在行文上的特殊性。以英文为代表的拉丁语系语言,英文以空格作为天然的分隔符,而中文词语之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多...原创 2020-02-22 17:47:01 · 319 阅读 · 0 评论