自然语言处理基础
主要涉及到中文分词、词性标注、句法分析等自然语言处理基础内容
Eric_LH
把握生命里的每一分钟
展开
-
导师给新手的第一批NLP任务
有空的时候学习一下如下的nlp任务:1 中文分词 2词性标注 3 短语分块 4 依存句法分析 5 命名实体识别 6 指代消解第一步了解怎样调用stanford corenlp的类和方法来完成这些任务第二步再学习算法的原理...原创 2018-10-26 12:02:42 · 430 阅读 · 0 评论 -
nlp中的LSTM学习
LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。Sigmoid 层输出 0 到 1 之间的数值,描述每个部分有多少量可以通过。0 代表“不许任何量通过”,1 就指“允许任意量通过”!原创 2017-08-10 20:43:09 · 1166 阅读 · 0 评论 -
nlp论文阅读:When Are Tree Structures Necessary for Deep Learning of Representations?
When Are Tree Structures Necessary for Deep Learning of Representations? 1. Recurrent models(看作是Sequence models)在时间序列数据中应用得很成功,例如speech 或者handwriting recognition.它们应用在早期的NLP中,通过对句子建模成序列化的tokens (tok原创 2017-08-18 21:36:22 · 762 阅读 · 0 评论 -
nlp中的alignment
IBM 1模型引入了一个很重要的东西:Alignments,也就是词汇之间是如何关联的。 word Alignments 中文翻译:词对齐。 例如: John bought books. John purchase books. 这里bought和purchase在语法和词义上都是等价的,这便是一种对齐。原创 2017-08-21 16:57:10 · 3453 阅读 · 0 评论 -
nlp一些好的会议
国际上的文本领域会议:ACL:http://acl2017.org/ 加拿大温哥华 7.30-8.4EMNLP:http://emnlp2017.net/ 丹麦哥本哈根 9.7-9.11COLING 等国内会议:CCKS http://www.ccks2017.com/index.php/att/ 成都 8月26-8月29SMP http://www.cips-smp.org/smp2017/ 北京原创 2017-08-21 19:53:23 · 8805 阅读 · 1 评论 -
word2vec 负采样思路
词典中的每个词在语料库中出现的频次有高有低,理论上来说,对于那些高频词,被选为负样本的概率较大,对于那些低频词,被选为负样本的概率较小。 基于这个基本事实,可以通过带权采样方法来实现,假设每个词的词频表示为单位线段上的一小分段,对于词典大小为 NN 的语料库,可以将词典中所有的词表示为单位线段上的一点,再在单位线段上等距离划分 MM 个等分, M>>NM>>N , 具体采样过程就是随机得到一个数原创 2017-08-29 11:51:16 · 2337 阅读 · 0 评论 -
计算belu值
参考 https://machinelearningmastery.com/calculate-bleu-score-for-text-python/原创 2018-04-16 14:09:15 · 1803 阅读 · 0 评论 -
NER 中word数量和tag数量不一致解决方案以及tf.string_split用法
句子中有中文空格 而tf.string_split(source, delimiter=’ ‘)默认是英文空格 导致NER 中word数量和tag数量不一致。tf.string_split(source, delimiter=' ')source是一维数组,用于将一组字符串按照delimiter拆分为多个元素,返回值为一个SparseTensor。假如有两个字符串,source...原创 2018-09-11 19:49:22 · 924 阅读 · 0 评论 -
计算文本相似度-杰卡德系数计算
源于https://juejin.im/post/5b237b45f265da59a90c11d6杰卡德系数,英文叫做 Jaccard index, 又称为 Jaccard 相似系数,用于比较有限样本集之间的相似性与差异性。Jaccard 系数值越大,样本相似度越高。实际上它的计算方式非常简单,就是两个样本的交集除以并集得到的数值,当两个样本完全一致时,结果为 1,当两个样本完全不同时,结果为 ...转载 2018-10-18 16:25:36 · 6053 阅读 · 0 评论 -
计算文本相似度-tf和tf-idf方法
来源https://juejin.im/post/5b237b45f265da59a90c11d6TF计算第三种方案就是直接计算 TF 矩阵中两个向量的相似度了,实际上就是求解两个向量夹角的余弦值,就是点乘积除以二者的模长,公式如下:cosθ=a·b/|a|*|b|上面我们已经获得了 TF 矩阵,下面我们只需要求解两个向量夹角的余弦值就好了,代码如下:from sklearn.feat...转载 2018-10-18 16:35:42 · 6445 阅读 · 0 评论 -
计算文本相似度-Word2Vec计算
来源于https://juejin.im/post/5b237b45f265da59a90c11d6Word2Vec,顾名思义,其实就是将每一个词转换为向量的过程。如果不了解的话可以参考:https://blog.csdn.net/itplus/article/details/37969519这里我们可以直接下载训练好的 Word2Vec 模型,模型的链接地址为:https://pan.b...转载 2018-10-18 19:14:47 · 12617 阅读 · 24 评论 -
计算句子文本相似度-编辑距离计算
本文转载于:https://juejin.im/post/5b237b45f265da59a90c11d6编辑距离,英文叫做 Edit Distance,又称 Levenshtein 距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。例如我们有两个字符串:string...转载 2018-10-18 15:30:16 · 2563 阅读 · 0 评论