![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理(贪心学院)
文章平均质量分 75
自然语言处理
Grateful_Dead424
这个作者很懒,什么都没留下…
展开
-
word2vec理论
字向量——多用于古诗生成词向量——多用于翻译、生成小说、文本分类语料库第一步,先要做分词word2index:语料库找出唯一不重复的词语,再给它分配一个唯一的idindex2word:word2index反过来word2onehot:onehot编码天气这个词,onehot编码后的向量是1 * 5000的需要和矩阵w1相乘减少向量的维度(本质就是提取w1矩阵的第index行的元素,所以不用相乘)再用这个1 * 50的向量乘以矩阵w2(和w1没关系),得到1 * 5000的向量,之后进行so原创 2022-07-10 14:34:50 · 556 阅读 · 0 评论 -
nlp(贪心学院)——有向图与无向图、生成模型与判别模型、CRF
任务256: 有向图与无向图模型有向图每个条件概率只依赖局部无向图每个条件概率依赖全局任务257: 生成模型与判别模型01 基本概念假设我们有训练数据(X,Y),X是属性集合,Y是类别标记。这时来了一个新的样本样本 x ,我们想要预测它的类别y。我们最终的目的是求得最大的条件概率 P(y|x)作为新样本的分类。判别式模型这么做根据训练数据得到分类函数和分界面,比如说根据SVM模型得到一个分界面,然后直接计算条件概率 P(y|x),我们将最大的 P(y|x)。作为新样本的分类。判别原创 2022-05-08 21:00:36 · 350 阅读 · 0 评论 -
nlp(贪心学院)——时序模型、HMM、隐变量模型、EM算法
任务225: 时序模型随时间维度变化的每时每刻有相关性(t时刻数据t+1时刻数据有相关性)时序数据长度不确定时序数据:如股票价格、语音、文本、温度任务226: HMM的介绍观测值、隐式变量z是一个隐式的状态可以是生成模型,从状态生成观测值也可以是判别模型任务227: HMM的应用例子掷硬币案例A硬币出现正面的概率是μ1\mu_{1}μ1B硬币出现正面的概率是μ2\mu_{2}μ2小明和我隔着一块不透明的布小明有自己的顺序投A还是投B,我只能看到硬币最后是正面还是反面朝原创 2022-05-08 13:08:43 · 1259 阅读 · 0 评论 -
nlp(贪心学院)——实体消歧、实体统一、指代消解、句法分析
任务212:Entity Disambiguation (实体消歧)介绍小米是公司还是吃的?苹果是公司还是吃的?根据左边的上下文找出左边的James Craig到底是右边(1)(2)(3)哪个James Craig有一个描述库(1)苹果:一种水果(2)苹果:一家公司(1)问题的句子,实体前找20个词,实体后找20个词,然后用tf-idf(2)解释整句话使用tf-idf(3)比较相似度或者在不同上下文中,计算苹果的词向量,然后计算余弦相似度任务214:Entity Resolutio原创 2022-05-06 14:04:53 · 2112 阅读 · 0 评论 -
nlp(贪心学院)——转载
ai工程师必备的核心功能现实中的问题—>数学优化问题—>通过合适的工具解决为什么NLP比CV难? 图片是所见即所得,而语言不只有表面意思,语言还有更加深入的浅层意思 如何解决一词多义? 将词放入上下文(context)中去理解 一个简单的机器翻译系统,如何将图中的一句话翻译出来,下面是翻译的例子,方法只能通过词与词对应人工学习出对应规则,然后猜测翻译的句子。 以上存在的问题 翻译速度慢语义不明(歧义)没有考虑上下文翻译后的句子语法不对需要大量的人工规则统计 解决方法:给定一句话,先转载 2022-04-30 12:00:33 · 803 阅读 · 0 评论 -
nlp(贪心学院)——笔记
任务048:01在训练数据里没有见过的怎么处理?第二题,新鱼种的概率约等于之前只抓到一次的鱼的概率加和,即3/18第三题,即然有新鱼种,抓到为鲨鱼的概率就要降低了任务049:02Good-Turning SmoothingGood-Turning Smoothing最大的问题是Nc+1N_{c+1}Nc+1可能不存在,此时要利用趋势拟合曲线,做出Nc+1N_{c+1}Nc+1的预测任务050:03利用语言模型生成句子使用Unigram Model生成句子,是不太符合咱们语言的逻辑原创 2022-04-30 22:51:28 · 407 阅读 · 0 评论 -
nlp(贪心学院)——词性标注、MAP和MLE
任务077:词性标注-实战(1)进行词性标注,这里用了Noise Channel Model将式子进行化简问题便转换成2个步骤计算A、B、π\piπ利用维特比算法找出最优解A是一个N乘以M的的矩阵,每一列是词库里出现的单词,每一行是单词的词性π\piπ是每一种词性的词作为句子开头词的概率B是前一个单词词性已知,后一个单词是某种词性的概率traindata.txt的样子:tag2id, id2tag = {}, {} # maps tag to id . tag2id: {"V原创 2022-05-03 18:57:00 · 625 阅读 · 0 评论 -
nlp(贪心学院)——信息抽取
任务188: 信息抽取介绍先抽取实体——>再抽取关系1)标记实体,实体分类(方便抽取关系)2)关系抽取(关系是人为定义的)3)指代消解,一个代词指代多个内容的时候分别到底是指拿个内容4)实体统一(实体链接)5)实体消歧任务189: 命名实体识别介绍意图识别:先规则,规则不行用模型任务190: 简历分析场景主要是定义我关心的实体类别(可能需要大量的词库)任务191: 搭建NER分类器一个单词有一种词性,但是有可能几个单词共同组成一个实体,B指开头,I指原创 2022-05-05 20:35:13 · 1490 阅读 · 0 评论