NLP
贾世林jiashilin
alanjia163@163.com 贾世林jiashilin 计算机 软件工程 AI bigdata
展开
-
从Word2vec中导入训练好的词向量
#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLinimport nltkfrom gensim.models import Word2Vecfrom keras.layers.core import Dense, Dropout, SpatialDropout1Dfrom keras.layers.conv...原创 2019-07-02 23:35:28 · 2940 阅读 · 2 评论 -
多层LSTM神经网络),出现ValueError: Input 0 is incompatible with layer lstm_21: expected ndim=3, found错误
在LSTM层前加上当前层 的上一层中添加return_sequences=True这个参数就可以了,使其返回ndim=3的序列。原创 2019-07-19 18:11:39 · 4762 阅读 · 2 评论 -
医药保险项目笔记-特征提取,数据预处理
features 包含三个部分的:词,分词 词典对应的序号, 每个词的长度,比如‘典型’,第一个字用‘1’,最后一个词为‘3’表示,长度超过2的词,如‘新加坡’用,‘123’表示...原创 2019-07-06 10:45:44 · 124 阅读 · 0 评论 -
han模型,fastext,textCNN
在NLP领域中,文本分类舆情分析等任务相较于文本抽取,和摘要等任务更容易获得大量标注数据。因此在文本分类领域中深度学习相较于传统方法更容易获得比较好的效果。正是有了文本分类模型的快速演进,海量的法律文书可以通过智能化处理来极大地提高效率。我们今天就来分析一下当前state of art的文本分类模型以及他们在法律文书智能化中的应用。文本分类领域走过路过不可错过的深度学习模型主要有Fast...原创 2019-09-07 17:17:22 · 652 阅读 · 0 评论 -
LSTM输出是所有时刻的?还是最后时刻的?
gru_layer=GRU(units=50,activation='relu',return_sequences=True)当return_sequences为True,返回所有时刻的状态,即(batch_size,time_steps,units)否则,返回最后的隐状态,即(batch_size,units)...原创 2019-08-03 22:18:10 · 2160 阅读 · 0 评论 -
LSTM GRU区别
结论:GRU和LSTM的性能在很多任务上不分伯仲。 GRU 参数更少因此更容易收敛,但是数据集很大的情况下,LSTM表达性能更好。 从结构上来说,GRU只有两个门(update和reset),LSTM有三个门(forget,input,output),GRU直接将hidden state 传给下一个单元,而LSTM则用memory cell 把hidden state 包装起来。 G...原创 2019-08-07 23:57:32 · 640 阅读 · 0 评论 -
BLEU,ROUGE,METEOR,RCIDEr-机器翻译常用评价度量
BLEU,ROUGE,METEOR,CIDEr-浅述自然语言处理机器翻译常用评价度量BLUE-基于精确度的相似性度量方法 ROUGE-基于召回率的相似性度量方法 METEOR-基于召回率相似性度量方法 CIDEr-基于-N-grams的度量方法https://blog.csdn.net/joshuaxx316/article/details/58696552...原创 2019-07-01 23:00:09 · 1039 阅读 · 0 评论 -
视频笔记-蔡猛(微软)-神经网络在语音中的应用
报告内容1,语言识别系统概要2,基本应用3,语言识别进阶4.常用语音识别开源软件原创 2019-04-18 19:18:07 · 346 阅读 · 0 评论 -
Seq2seq ,attention
原创 2019-05-25 21:06:35 · 118 阅读 · 0 评论 -
语言模型,bert,transformer,rnn
RNN问题:问题.1导致时间太长,效率低,不能够很深问题2:单项信息流,‘it’需要考虑前后的情况,RNN不支持解决方法,多个RNN如encoder-decoder就用attention,单个RNN就是Self-attention1.attention如翻译模型中,需要之前的encoder信息2.self-attention自驱动的...原创 2019-06-12 21:58:58 · 912 阅读 · 0 评论 -
语言模型
目前常用于语言模型的是 N-gram 模型和神经语言模型N-gram 语言模型 马尔可夫(Markov)假设——未来的事件,只取决于有限的历史 基于马尔可夫假设,N-gram 语言模型认为一个词出现的概率只与它前面的 n-1 个词相关 神经概率语言模型 (NPLM) 神经概率语言模型依然是一个概率语言模型,它通过神经网络来计算概率语言模型中每个参数<div al...原创 2019-07-01 23:12:24 · 168 阅读 · 0 评论 -
语音QA机器人
目录系统方案总述a. 步骤b. 系统的设计c . QA模型流程图d. 体系结构和各个部分细分,一. 语音识别:语言识别模型各个步骤详述总结:二.问答系统:分类体系三种形式:技术架构图模型逻辑图如下:三. 语音合成:基本原理 1.波形合成法 2.参数合成法 3.规则合成法总的流程系统方案总...原创 2019-05-16 10:19:56 · 1500 阅读 · 0 评论 -
Seq2Seq 模型 常用的几种
Seq2Seq 模型 大部分自然语言问题都可以使用 Seq2Seq 模型解决原创 2019-07-01 23:01:49 · 969 阅读 · 0 评论 -
语言模型,word2vec,Negative Sample(负采样) Hierarchical Softmax(层次softmax)
目录1.语言模型:2.最早的语言模型的问题:3.N-gram(统计词频)4.词向量(利用神经网络)4.1word2vec4.2、两种训练模式4.3、两种加速方法refrence:1.语言模型:更多语言模型参考https://www.cnblogs.com/rucwxb/p/10277217.html,(ELMo,BERT)2.最早的语言模型的...原创 2019-04-20 16:41:42 · 1085 阅读 · 0 评论 -
NLP文本提取中打标签列表和方案
标签列表如下:B,即Begin,表示开始 I,即Intermediate,表示中间 E,即End,表示结尾 S,即Single,表示单个字符 O,即Other,表示其他,用于标记无关字符常用的较为流行的标签方案有如下几种:IOB1: 标签I用于文本块中的字符,标签O用于文本块之外的字符,标签B用于在该文本块前面接续则一个同类型的文本块情况下的第一个字符。 IOB2: 每个文本块...原创 2019-06-30 21:05:41 · 4910 阅读 · 0 评论 -
抽取式文本摘要实现
1、介绍 1、本文自动文本摘要实现的依据就是词频统计 2、文章是由句子组成的,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。 3、句子的信息量用"关键词"来衡量。如果包含的关键词越多,就说明这个句子越重要。 4、"自动摘要"就是要找出那些包含信息最多的句子,也就是包含关键字最多的句子 5、而通过统计句子中关键...原创 2019-10-21 11:59:08 · 4487 阅读 · 1 评论 -
关键词提取算法TextRank
用TextRank提取来提取关键词,用PageRank的思想来解释它:如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要 一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高背景相关TF-IDF:仅仅从词的统计信息出发,而没有充分考虑词之间的语义信息。现在本文将介绍一种考虑了相邻词的语义关系、基于图排序的关键词提取算法...原创 2019-06-22 22:41:21 · 1561 阅读 · 0 评论 -
Glove(Global Vector)
引言前几天的一篇文章自然语言处理入门里提到了一个词嵌入工具GloVe,今天我们花点时间介绍下它的工作原理。不管是英文还是中文,网上关于GloVe的介绍并不多,所以本文的内容主要来自于Stanford NLP Group的Jeffrey Pennington, Richard Socher, Christopher D. Manning在2014年的Empirical Methods in...原创 2019-08-02 22:27:46 · 741 阅读 · 0 评论 -
jieba分词三种模式 ,词性标注+分词
jieba分词三种模式#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLin'''jieba三种分词模式注意jieba分词后得到的是一个list'''import jiebaimport jieba.posseg as pseg# 1. print("\n jieba分词全模式")seg_li...原创 2019-05-27 23:31:52 · 2382 阅读 · 0 评论 -
standford CoreNLP进行词性标注,命名实体识别:
使用standford CoreNLP进行词性标注,命名实体识别:下载Stanford CoreNLP文件,解压。 处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2016-10-31根目录下即可(注意一定要下载这个文件哦,否则它默认是按英文来处理的)。 pip安装standford CoreNLP:pip install stanfordcor...原创 2019-05-28 10:08:01 · 1855 阅读 · 0 评论 -
FastText
FastText算法原理解析0. 目录1. 前言 2. FastText原理 2.1 模型架构 2.2 层次SoftMax 2.3 N-gram子词特征 3. fastText和word2vec的区别 4. 总结回到顶部1. 前言自然语言处理(NLP)是机器学习,人工智能中的一个重要领域。文本表达是 NLP中的基础技术,文本分类则是 NLP 的重要应...原创 2019-08-02 22:59:00 · 169 阅读 · 0 评论 -
jieba自定义词典精准分词.
代码中的两种方式 : 添加自定义词典 jieba.load_userdict("3dict.txt") 添加自定义正则 regex1 = u'(?:[^\u4e00-\u9fa5()*&……%¥$,,。.@! !]){1,5}期' # 非汉字xxx期 regex2 = r'(?:[0-9]{1,3}[.]?[0-9]{1,3})%' ...原创 2019-05-29 17:00:52 · 12397 阅读 · 0 评论 -
nltk.sent_tokenize() nltk.word_tokenize()利用分句子,分词,
分词nltk.sent_tokenize(text) #按句子分割nltk.word_tokenize(sentence) #分词nltk的分词是句子级别的,所以对于一篇文档首先要将文章按句子进行分割,然后句子进行分词:http://www.pythontip.com/blog/post/10012/...原创 2019-07-02 22:47:25 · 27149 阅读 · 1 评论 -
序列标注两种模式BIO和BIOES
BIO标注模式(B-begin,I-inside,O-outside)BIOES标注模式(B-begin,I-inside,O-outside,E-end,S-single)原创 2019-09-05 22:36:21 · 1678 阅读 · 0 评论 -
jieba加入词频
jieba加入词频#!/usr/bin/env python# -*- coding:utf-8 -*- # Author: Jia ShiLinimport jiebaimport osjieba.load_userdict("dict.txt")fp =open("dict.txt",'r',encoding='utf8')for line in fp: ...原创 2019-05-31 21:58:48 · 480 阅读 · 0 评论 -
BiLSTM-CRF模型:CRF层的作用
BiLSTM-CRF模型:BiLSTM-CRF模型结构1、输入句子x通过字嵌入或词嵌入构成向量。如果是字嵌入,则是随机初始化的(char2id);若是词嵌入,则是通过训练好的词向量得到(如glove)。 2、字嵌入或词嵌入构成向量构成BiLSTM模型的输入,输出为句子x中各个字符对应的标签。如下图:不含CRF层的BiLSTM-Softmax模型由上图可见,BiLSTM...原创 2019-09-11 23:21:39 · 2030 阅读 · 0 评论