自然语言处理 NLP
自然语言处理
AI_Younger_Man
这个作者很懒,什么都没留下…
展开
-
动手学深度学习:10.1 词嵌入(word2vec)
10.1 词嵌入(word2vec)注:个人觉得本节和下一节写得过于简洁,对于初学者来说可能比较难懂。所以强烈推荐读一读博客Word2Vec-知其然知其所以然。自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。近年来,词嵌入已逐渐成为自然语言处理的基础知识。https://tangshusen.me/Dive-into-DL-PyTorch/#/原创 2020-08-11 15:30:06 · 223 阅读 · 0 评论 -
词向量与ELMO模型
非欧氏空间:比如地球仪上求距离全局:就是把所有数据全部放倒模型里面训练。局部:只考虑局部,来一个滑动窗口马尔科夫的建设:从前一个状态 推导 后一个状态不是真正的双向:输入:是每一个文档和句子,参数保存了文档的一些信息...原创 2020-07-29 09:13:35 · 111 阅读 · 0 评论 -
第四章 4 、 3 朴素贝叶斯模型(垃圾邮件过滤)
朴素贝叶斯模型二分类问题:训练集:知道内容,知道标签主要就是统计一些单词出现的次数垃圾邮件的分类:现在我竹东统计一下:购买,单词的一些性质给定了训练数据,有正常邮件和垃圾邮件:搜集数据再来看一下:物品,这个单词等等等所以,我需要有一个 Vocab 词典库,然后对每一个单词都进行上面那个概率操作,找出敏感词。可能会进行上万次操作。在训练数据当中会得到先验知识回顾:...原创 2020-02-28 22:44:01 · 397 阅读 · 1 评论 -
第四章 4 、 2 使用语言模型生成句子,专家系统及概率统计学习(二)
基于概率的系统现在主流的想法:机器学习、深度学习生成模型:可以生成一些新的数据,主要用联合概率判别模型:判别,主要用条件概率朴素贝叶斯算法:文本分类、垃圾有近过滤、情感分析逻辑回归CRF模型(Conditional Random Fields):可以模拟序列数据,判断一句话中一个词的词性HMM:语音识别LDA:主题模型,文本分析,文本找主题GMM:高斯混合模型空间上一个点,聚成...原创 2020-02-28 19:16:52 · 362 阅读 · 0 评论 -
第四章 4 、 1 使用语言模型生成句子,专家系统及概率统计学习(一)
基于Bi-的LM模型在大量语料库里面训练语言模型生成单词的概率矩阵,穿线NLP之后出现哪些单词的概率比如随机出现的但此时I,那么下一个就是I中的可能性最大的,以此类推学习:专家系统 VS 概率系统专家系统:基于规则的实现。符号主义概率系统:基于学习,深度学习,机器学习。概率统计重要。连接主义专家系统专家系统:会用到逻辑离散数学一系列的指示,去推理出结论。推理引擎...原创 2020-02-28 18:30:41 · 358 阅读 · 0 评论 -
第三章 3、4 语言模型及其平滑项处理
Noisy Channel Model下面这个是贝叶斯公式。因为source是给定的输入,所以它的概率是常数,分母就忽略了。例如:一直输入的英文,求翻译之后的中文。语言模型LM:深度学习模型,判断语义性。回忆一下联合概率公式在语料库中先找后面这一句话,找到之后,看后面接的是什么。看是否出现,求概率。缺点:当这这句话很长的时候,不好找改进:马尔科夫假设unigram ...原创 2020-02-25 01:34:33 · 550 阅读 · 0 评论 -
第三章 3、3文本预处理之文本的表示(Word Representaion)
一、文本标识单词的标识给定一个构建好的词典库,在词典库基础之上,使用One-hot编码:出现单词的地方标1,没出现的单词标0句子的表示基于0/1:先对巨资进行分词,然后对句子使用One-hot编码。不统计出现的次数,出现就标1基于计数:统计分词之后单词在词典库中出现的次数二、计算相似度句子用向量表示出来之后,就可以套用数学公式,向量是有方向的。欧氏距离:欧几里得距离。结...原创 2020-02-23 16:17:59 · 334 阅读 · 0 评论 -
第三章 3、2 文本预处理之拼写纠错(Spell Correction)
一、什么是拼写纠错根据两个单词的编辑距离,计算相似度。可以将错误的单词改正。编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。那么,如何用Python计算编辑距离呢?我们可以从较为简单的情况进行分析...原创 2020-02-23 13:46:59 · 769 阅读 · 0 评论 -
第三章 3、1 文本预处理之分词(Word Segmentation)
一、大纲总览1、tough资料:各类文本等的输入。2、分词。好的分词算法很重要。3、文本预处理。4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。6、模型:向量有了,然后就是根据算法去匹配。二、分词可以直接用的分词工具。1、分词算法之最大匹配向前最大匹配、向后最大匹配、双向最大匹配(不讲...原创 2020-02-20 17:05:18 · 598 阅读 · 0 评论 -
第二章 2、3 算法时间复杂度例题讲解
#%% md1. 简单的复杂度的回顾#%%def compute(a,b): n,s = 10,0 for i in range(n): for j in range(n): s = s + a * b return s时间复杂度:O(N^2), 空间复杂度:O(1)#%% md2. 归并排序以及时间复杂度以及Mas...原创 2020-02-20 16:00:57 · 919 阅读 · 0 评论 -
第二章 2.2 算法时间复杂度例题讲解
#%% md时间复杂度和空间复杂度这是任何AI工程师必须要深入理解的概念。对于每一个设计出来的算法都需要从这两个方面来分析O(N), O(N^2) : o notation#%%int a = 0, b = 0; for (i = 0; i < N; i++) { # O(N)+O(N)=2*O(N)=O(N) a = a + rand();# N*1个操作 = O...原创 2020-02-20 15:34:32 · 1342 阅读 · 0 评论 -
第二章 算法时间复杂度
一、主定理1、 主要是计算 n_log_b_a 。求出来之后和后面的Fn进行比较,然后按照规则些出结果就行。2、一句话解释:这两个值哪一个大就取谁;想等的话先看Fn里面log的次数,最终的结果在log的基础之上+1就是最终结果log的次数。例题如右下角3、要注意的一点就是:保证T(n)的形式要和定理里面的一样,一个大问题拆解成为几个相等的小问题。1、例题如上。2、N!是阶数最...原创 2020-02-19 18:17:38 · 633 阅读 · 0 评论 -
第一章 1、2自然语言处理概论(续)
一、NLP的经典应用场景问答系统问答系统:在语料库当中寻找问答对儿形成知识库,然后根据问题相思的语句进行搜索答案。初级实现情感分析两种不同的处理过程。机器翻译自动摘要类似于中学语文学习梗概的写作。聊天机器人以后要做的项目之一。有目的导向性和随机性两个类型。信息抽取信息抽取:相当于淘宝购物下单时候,收件人信息自动填写。...原创 2020-02-18 11:41:20 · 199 阅读 · 0 评论 -
第一章 1、1 自然语言处理概论
一、AI工程师必备的核心技能也就是工程师需要从现实实际问题当中抽取数学模型,然后运用数学知识优化问题。然后才是工程能力:学习某个开源或者黑盒工具开发项目。二、什么是NLPNLPNLP就是NLU+NLG。NLU(nature llanguage understand)一个人先用文本或者语音表达自己的意思,然后对面的那个人来理解这个是什么意思。NLG(nature langua...原创 2020-02-17 23:00:06 · 240 阅读 · 0 评论