自然语言处理
fkyyly
这个作者很懒,什么都没留下…
展开
-
loss集合
hinge loss loss=output-output_y+self.margin#contains i=y #remove i=y items loss[torch.arange(0,y.size()[0]).long().cuda(),y.data.cuda()]=0 #max(0,_) loss[loss<0]=0原创 2021-04-13 21:11:29 · 281 阅读 · 0 评论 -
句法分析方法transation based dependency parsing和graph based parsing
句法分析的几种主要方法:Deterministic parsing(specifically : Transition-based parsing)Dynamic programming(specifically : Graph-based parsing)Constraint satisfaction1 什么是Transition-based基于转移的框架?(1)队列I存放句...原创 2019-04-24 20:45:25 · 1388 阅读 · 0 评论 -
自然语言的语句几种表示方法
(1)Phrase structure(2)Dependency structureSyntactic Dependency Parsing:树,可以是交叉也可以不交叉projrctivity,non-projectivitySemantic Dependency Parsing(3)Frame semantics(SRL)1.Phrase structure(句法结构):...转载 2019-04-24 20:15:52 · 2135 阅读 · 0 评论 -
结巴分词加字典分词词性标注
1 代码import jiebaimport jieba.posseg as psegjieba.load_userdict("data/entity_noun_dic.txt")jieba.add_word(word="重置", tag="v")jieba.del_word("送别") jieba.del_word("人流量")result = pseg.cut("请问光猫登陆密码是..原创 2019-02-16 17:12:41 · 3953 阅读 · 0 评论 -
对话系统 intent和slot识别
近年来比较热门的任务型对话的研究主要集中在端到端的框架的研究,基本跟传统任务型算法框架——语言理解模块(Spoken Language Understanding,对话管理模块(Dialogue Management),自然语言生成模块(Natural Language Generation)有较大的差别。其中一些这类模型本质上实际为一些sequence-to-sequence结合知识库的架构,如...转载 2018-11-06 18:11:24 · 6571 阅读 · 2 评论 -
自然语言处理工具spacy
(1)安装pip install spacypython -m spacy download en(2) example#coding=utf-8__author__ = 'liyang54'import spacyfrom spacy import displacynlp = spacy.load('en')doc = nlp(u'Apple is looking at ...原创 2018-08-13 13:38:06 · 1130 阅读 · 0 评论 -
TFIDF,ngrame的scikitlearn接口
(1)TFIDF计算的scikitlearn接口from sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizer# 我,他,了这些词是过滤了的if __name__ == "__main__": corp...原创 2018-04-17 21:53:44 · 897 阅读 · 0 评论 -
1 语言模型和词向量
----------------------------大纲--------------------------1 原理1.1 语言模型1.2ngram1.3 神经网络语言模型 当前词wt 依赖于其前面的词w1:(t−1) ,估计P(Wt|W1:(t−1)) 转化为分类问题,降低语言模型困惑度1.4 word2vec 不通过优化语言模型而直接学习词嵌入 ...原创 2018-01-09 13:11:57 · 2014 阅读 · 0 评论 -
语言模型涉及的相关概念
1 什么是语言模型:语言模型其实就是看一句话是不是正常人说出来的(判断自然语言上下文相关的特性)。在很多NLP任务中都会用到,比如机器翻译、语音识别得到若干候选之后。语言模型形式化的描述就是给定一个字符串,看它是自然语言的概率 P(w1,w2,…,wt)。W依次表示这句话中的各个词。有个很简单的推论常用的语言模型都是在近似地求 比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1)...原创 2018-04-16 20:57:58 · 1609 阅读 · 1 评论 -
中科院词性标注标记集
汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。b 区别词 取汉字“别”的声母。c 连词 取英语连词conjuncti转载 2015-03-02 20:30:56 · 1218 阅读 · 0 评论 -
在CTB上训练一个Berkeley Parser
在CTB上训练一个Berkeley Parser1. 简介 Berkeley Parser 是加州大学伯克利分校 NLP 实验室开发的一种基于概率上下文无关文法(PCFG)的成分句法分析器,支持英语,汉语,德语等多个语种,它具有较高的句法分析性能,准确率较高,可选参数较多,运行速度快递优点,在 ACL,NAACL 等主流国际会议的论文中得到广泛使用。 想了转载 2015-01-20 16:23:55 · 2350 阅读 · 0 评论