Just for fun的专栏

好玩,最重要

NeuralCoref: python的共指消解工具,向代词指代的问题进军!

共指消解        首先简要地说说共指消解是什么,有什么用处。假设机器正在阅读一个这样的文本: 克劳德·莫奈是印象派代表人物和创始人之一。 他最重要的风格是改变了阴影和轮廓线的画法。 1 2         如果机器想要从这段话中了解到关于莫奈风格的知识,它首先必须知道,第二句话中的“他”指的...

2018-09-25 14:26:02

阅读数:133

评论数:1

使用中文维基百科进行GloVe实验

1. 环境及语料 1.1 环境 Python GloVe 1.2 语料   处理之后的中文Wiki    处理步骤参考我的这篇博客:使用中文维基百科进行Word2Vec实验。处理之后得到文件:corpus.zhwiki.segwithb.txt 2. 实验 2.1 GloVe 获...

2018-09-17 14:46:32

阅读数:102

评论数:0

语义依存分析 表

https://www.ltp-cloud.com/intro/#srl_how 语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过...

2018-09-10 20:40:10

阅读数:270

评论数:0

语义角色标注表

LTP 的语义角色  https://www.ltp-cloud.com/intro/#srl_how 语义角色标注 (Semantic Role Labeling, SRL) 是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点...

2018-09-10 20:29:02

阅读数:243

评论数:0

用条件随机场CRF进行字标注中文分词(Python实现)

http://www.tuicool.com/articles/zq2yyi     http://blog.csdn.net/u010189459/article/details/38546115 主题 中文分词 Python         本文运用字标注法进行中文分词,使用4-tag...

2018-08-10 19:57:56

阅读数:204

评论数:0

轻松理解条件随机场(CRF)

理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。 原文在这里[http://blog.echen.me/2012/01/03/introduction-to-c...

2018-08-10 17:22:57

阅读数:213

评论数:0

带你愉快的理解CRF

本文希望用尽可能简短的语言把CRF(条件随机场,Conditional Random Field)的原理讲清楚,这里In A Nutshell在英文中其实有“导论”、“科普”等意思(霍金写过一本《果壳中的宇宙》,这里东施效颦一下)。 网上介绍CRF的文章,不管中文英文的,基本上都是先说一些概率图...

2018-08-10 16:57:14

阅读数:148

评论数:0

北大词性标注集

代码    名称             帮助记忆的诠释     Ag     形语素     形容词性语素。形容词代码为a,语素代码g前面置以A。     a       形容词      取英语形容词adjective的第1个字母。  ad 副形词 直接作状语的形容词。形容词代码a和副词代码d...

2018-08-10 14:01:09

阅读数:100

评论数:0

利用中文数据跑Google开源项目word2vec

一直听说word2vec在处理词与词的相似度的问题上效果十分好,最近自己也上手跑了跑Google开源的代码(https://code.google.com/p/word2vec/)。 1、语料 首先准备数据:采用网上博客上推荐的全网新闻数据(SogouCA),大小为2.1G。  从ftp上下...

2018-07-30 14:28:24

阅读数:194

评论数:0

关于深度学习中的注意力机制,这篇文章从实例到原理都帮你参透了

最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习技术中最值得关注与深入了解的核心技术之一。   本文以机器翻译为例,深入浅出地介绍了深度学习中注意力机制的原理及关键计算机制,同时也抽象出其本质思想,并介...

2018-07-18 22:23:30

阅读数:395

评论数:0

Python自然语言处理实战(8):情感分析技术

实战电影评论情感分析         情感分析是一段文字表达的情绪状态。其中,一段文本可以使一个句子、一个段落或者一个文档。主要涉及两个问题:文本表达和文本分类。在深度学习出现之前,主流的表示方法有BOW(词袋模型)和topic model(主题模型),分类模型主要有SVM和LR。      ...

2018-07-18 20:47:34

阅读数:560

评论数:3

Python自然语言处理实战(7):文本向量化

7.1 文本向量化概述     文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义,文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文,词语都是表达文本处理的最基本单元。当前阶段,对文本向量...

2018-07-18 00:21:05

阅读数:805

评论数:0

Python自然语言处理实战(5):关键词提取算法

5.1 关键词提取技术概述    相对于有监督的方法而言,无监督的方法对数据的要求就低多了。既不需要一张人工生成、维护的词表,也不需要人工标准语料辅助进行训练。因此,这类算法在关键词提取领域的应用更受到大家的青睐。目前常用的算法有TF-IDF算法、TextRank算法和主题模型算法(包括LSA、L...

2018-07-16 18:08:08

阅读数:1357

评论数:3

Python自然语言处理实战(4):词性标注与命名实体识别

4.1 词性标注       词性是词汇基本的语法属性,通常也称为词类。从整体上看,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。目前较为主流的方法是如同分词一样,将句子的词性标注作为一个...

2018-07-16 15:01:29

阅读数:1061

评论数:0

如何用简单易懂的例子解释条件随机场(CRF)模型?它和HMM有什么区别?

作者:Scofield链接:https://www.zhihu.com/question/35866596/answer/236886066来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。so far till now, 我还没见到过将CRF讲的个明明白白的。一个都没...

2018-07-16 14:56:28

阅读数:1494

评论数:1

Python自然语言处理实战(3):中文分词技术

3.1、中文分词简介       在英文中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然是以词来划分的。       自中文自动分词被提出以来,历经将近30年的探索,提出了很多方法,可主要归纳为“规则分词”...

2018-07-15 17:49:18

阅读数:753

评论数:2

Python自然语言处理实战(1):NLP基础

      从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。自然语言处理研究表示语言能力、语言应用的模型,通过建立计算机框架来实现这样的语言模型,并且不断完善这样的语言模型,还需要根据语言模型来设计各种实用的系统,并且探讨这些实用技...

2018-07-14 20:24:23

阅读数:1321

评论数:0

精通Python自然语言处理 4 :词性标注--单词识别

   词性标注被用于信息检索、机器翻译、NER、语言分析等1、词性标注简介   一个对句中的每个标识符分配词类(如名词、动词、形容词等)标记的过程。在nltk.tag包中并被TaggerIbase类所继承。>>> text1 = n...

2018-06-01 20:48:30

阅读数:641

评论数:1

GitHub项目:自然语言处理项目的相关干货整理

自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。本文作者为自然语言处理NLP初学者整理了一份庞大的自然语言处理项目领域的概览,包括了很多人工智能应用程序。选取的参考文献与资料都侧重于最新的深度学习研究成果。这些自然语言处理项目资源能为想要深入钻...

2018-06-01 16:35:14

阅读数:1438

评论数:0

精通Python自然语言处理 3 :形态学

    形态学可以定义为使用语素对单词的构成进行研究,语素是具有意义的最小语言单位。1、形态学简介    语素有两种类型:词根和词缀(后缀、前缀、中缀和环缀)。词根可以独立存在,词缀不能以自由的形式存在。2、理解词干提取器     通过去除单词中的词缀以获取词干的过程。为了提高信息检索的准确性,搜...

2018-05-28 23:56:44

阅读数:253

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭