![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
Gavin_ggl
这个作者很懒,什么都没留下…
展开
-
ElMo模型
前言说起Elmo模型,我们要从自然语言理解(NLU)说起,如果我们想通过计算机来处理自然语言(音频,文字等),首先我们需要将自然语言转换成计算机可以处理的形式,NLU就是量化自然语言。我们直接这里针对文字这种语言形式,以量化的方式表示一个单词的方式one-hot Representation如果只有一句话,“我 喜欢 自然 语言”’,我们可以用one-hot Representiation的...原创 2020-06-25 16:13:55 · 819 阅读 · 0 评论 -
(NLP学习)(九)HMM(Hidden Markov Model)
隐马尔可夫模型(Hiden Markov Model, HMM)隐马尔可夫模型是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来,HMM被应用于语音识...原创 2019-10-14 21:44:54 · 559 阅读 · 0 评论 -
(NLP学习)(八)基于NLTK和Stanford NLP实现命名实体识别
NLR(命名实体识别)人名、地名、机构名等等Denpendency (依存分析)原创 2019-10-14 15:21:27 · 1662 阅读 · 0 评论 -
(NLP学习)(七)专家系统和基于概率的系统
AI的两个重要分支:专家系统和基于概率的系统专家系统:也叫符号主义,基于规则,特别是没有一个数据。例如:金融风控领域,基于概率的系统:也叫连接主义,基于学习,例如:神经网络领域。如何选择?数据量没有数据/很少数据大量数据专家系统基于概率的系统专家系统专家系统=推理引擎+知识(类似于程序=数据结构+算法)利用知识和推理来解决决策问题AI系统 vs BI...原创 2019-08-29 13:57:16 · 726 阅读 · 0 评论 -
(NLP学习)(六)搭建基于检索的问答系统
写在前面:所有用到的包import jsonfrom matplotlib import pyplot as pltimport reimport stringimport nltkfrom nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizefrom nltk.stem.porter import ...原创 2019-08-27 15:44:31 · 1800 阅读 · 6 评论 -
(NLP学习)(五)实现拼写纠错
拼写纠错错误的输入:s正确的写法:c基于朴素贝叶斯的Noisy channel Model:c=argmaxc∈candidatep(c∣s)=argmaxc∈candidatep(c∣s)∗p(c)c=argmax_{c\in candidate}p(c|s)=argmax_{c\in candidate}p(c|s)*p(c)c=argmaxc∈candidatep(c∣s)=arg...原创 2019-08-27 13:48:10 · 1666 阅读 · 4 评论 -
(NLP学习)(三)搭建中文分词工具
说明此项目需要的数据:dic.xlsx: 词典包含了中文词,当做词典来用以变量的方式提供了部分unigram概率 word_prob基于枚举方法来搭建中文分词工具import xlrdimport math# TODO:读取字典。print("Reading dic...")# 获取一个Book对象workbook = xlrd.open_workbook("dic.x...原创 2019-08-23 14:14:24 · 1694 阅读 · 2 评论 -
(NLP学习)(四)文本处理技术
搭建一个智能客服系统语料库概述分词预处理拼写纠错化成原型停用词过滤单词过滤同义词替换文本的表示文本转换成向量之后,即结构化数据,其中加减乘除公式就可以用了。bollen vertorcount vertorword2vec 词向量sep2sep(可选)倒排表可以降低复杂度计算相似度欧氏距离余弦距离(可选)过滤相似度排序,返回结果...原创 2019-08-23 15:34:51 · 2129 阅读 · 0 评论 -
(NLP学习)(二)基础储备
基础储备算法复杂度分析算法复杂度可以分为时间复杂度和空间复杂度,这里我跳过一些比较基础的分析,基础可以参考:算法的时间复杂度和空间复杂度-总结我们主要来分析递归式的复杂度。时间复杂度引入一个解决递归问题时间复杂度的最常用的方法:主方法总结一下过程就是:确定a,b的值求出nlogban^{log_{b} a}nlogba,与f(n)f(n)f(n)比较,取数量级大的那个。如果相...原创 2019-08-16 00:18:28 · 194 阅读 · 0 评论 -
(NLP学习)(一)引子
引出机器翻译的变化以前:基于人工统计的规则来翻译 -> 现在:用机器学习来学习出统计的规则来翻译之前的机器翻译的缺点:计算速度慢语义不通问题语法错误问题解决语法问题例如:翻译“今晚的课程有意思”首先,先分词为“今晚/的/课程/有意思”,对应词典里面的对应翻译为“Tonight of the course interesting”,即Broken English。然后...原创 2019-08-14 17:55:18 · 235 阅读 · 0 评论