![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
波心冷血
入坑NLP的渣渣
展开
-
机器阅读理解笔记之glove词向量与attentive reader&impatient reader和bi-DAF
glove词向量模型词向量的表示可以分成两类:基于统计方法 共现矩阵、svd基于语言模型 神经网络语言模型,word2vector,glove,elmo word2vector中的skip-gram模型是利用类似于自动编码的器网络以中心词的one-hot表示作为输入来预测这个中心词环境中某一个词的one-hot表示,即先将中心词one-hot表示编码然后解码成环境中某个词的one-hot表示(多分类模型,损失函数用交叉熵)。CBOW是反过来的,分别用环境中的每一个词去预测中心词。尽管word2原创 2020-11-12 18:14:22 · 375 阅读 · 0 评论 -
简明的jieba中文分词教程
简介jieba是一种中文分词工具,比较好用。获取链接支持三种分词模式:精确模式全模式索索引擎模式paddle模式(需要使用 飞浆)主要功能jieba.cut() 方法接受三个输入参数:需要分词的字符串;cut_all参数控制是否使用全模式;HMM控制是否使用HMM模型,默认Truejieba_cut_for_search() 方法接受两个参数:需要分词的字符串;HMM;该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细jieba.cut() 和 jieba_cut_for_sea原创 2020-11-09 22:45:50 · 419 阅读 · 0 评论 -
机器阅读理解的简要介绍---以百度dureader和斯坦福SQuAD为例(一)
什么是机器阅读?QA问题的一个子集。通过交互从书面文字中提取与构造文章语义的过程。机器阅读理解常见的任务完形填空从原文中去除若干词,需要模型填入正确的单词或者短语多项选择模型需要从给定的若干选项中选出正确的答案答案抽取答案限定为文本中某一句,需要模型在文本中标注正确答案的起始和终止位置自由回答模型根据文本数据生成回答机器阅读任务中的数据集常见的数据集有百度知道的 DuReader 数据集 和 斯坦福大学的SQuAD数据集。DuReader 数据集数据来源问题和文档均来原创 2020-11-06 17:21:15 · 494 阅读 · 0 评论 -
DuReader数据集,文本提取、分词等简单处理
import jsonimport pandas as pdimport jiebaimport redata_path = '../datas/dureader_robust-data/train.json'with open(data_path,'r',encoding='utf-8') as f: data = json.load(f)print(data.keys())dict_keys(['data'])print(data['data'][0].keys())原创 2020-11-06 17:16:49 · 959 阅读 · 1 评论 -
week2
import re # 正则化import pandas as pdfrom collections import defaultdict # 计算词频from time import timeimport spacy # 用来预处理import logging # 设置日志用来监控gensimlogging.basicConfig(format="%(levelname)s - %(asctime)s: %(message)s",datefmt='%H:%M:%S',level=lo原创 2020-11-04 21:22:31 · 412 阅读 · 0 评论 -
朴素贝叶斯的理解
最近在学习贝叶斯分类器,看着公式头大,记一下自己的理解。在讲贝叶斯之前,要把条件概率公式和全概率公式简单回顾一下。条件概率条件概率本身没有什么需要讲的,但是它有一个很常用的变形,得到概率的乘法公式:概率的乘法公式:一个事件发生的概率等于造成这件事发生的所有事件概率的乘积,如果甲和乙同时发生,那么就让其中一个发生,另一件随后发生,这样两件事就同时发生了。下面写出概率乘法公式的n个事件的形式:每个发生的事件,都要成为下一个事件发生的条件之一。全概率公式全概率公式:例如一个事情的结果原创 2020-10-30 18:59:55 · 208 阅读 · 1 评论 -
使用gensim学习word2vector
1.gensim安装gensim是很好用的Python的NLP包,目前只学了使用word2vector,还有很多API需要去探索!pip install gensim即可完成安装from gensim.models import word2vector执行这一行命令,如果不报错即安装成功!2.gensim.word2vector API概述在gensim中,word2vec 相关的API都在包gensim.models.word2vec中。和算法有关的参数都在类gensim.models原创 2020-07-27 15:23:43 · 363 阅读 · 0 评论 -
Task3-subword模型
task-3 subword模型之前的模型都是基于word单词作为基本单位的,但是其缺点是不能很好的解决out-of-vocabulary即单词不在词汇库里的情况,且对于单词的一些词法上的修饰(morphology)处理的也不是很好。一个自然的想法就是能够利用比word更基本的组成来建立模型,以更好的解决这些问题。Character-Level Model一种思路是将字符作为基本单元,建立Character-level model,但是由于基本单元换为字符后,相较于单词,其输入的序列更长了,使得数据更原创 2020-06-30 22:40:36 · 164 阅读 · 0 评论 -
Task2-GloVe原理介绍
Task2-Word Vectors and Word Senses1.skipgram、cbow回顾使用skipgram和cbow两种模型进行词向量预训练,我们会发现Word2Vec模型是一个超级大的神经网络(权重矩阵规模非常大)。举个栗子,我们拥有10000个单词的词汇表,我们如果想嵌入200维的词向量,那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有 10000 x 200 = 200万个权重,在如此庞大的神经网络中进行梯度下降是相当慢的。更糟糕的是,你需要大量的训练数据来调整这些权重并原创 2020-06-27 23:08:27 · 143 阅读 · 0 评论 -
自然语言处理(NLP)介绍和词向量
Task 1:NLP introduction and word vectors1 什么是NLP?自然语言处理(natural language processing)简称NLP。人类比猩猩更加聪明,是因为人们可以通过语言进行交互,对语言的理解和思考,展现了人类语言的复杂和高效。每个人对于语言都可以有自己的理解,因此语言不光具有信息传递的功能,还可以通过语言来影响其他人。当今社会,网络速度不断更新迭代,5G已经油然而生,相对于人类语言,我们使用NLP技术可以高速学习构建更强大的处理能力。简单点说:N原创 2020-06-24 23:20:15 · 1136 阅读 · 0 评论