NLP
文章平均质量分 89
搞点學術的研究生
学而时习之,不亦说乎?
展开
-
自然语言处理概述及应用和中文分词简述
小白一个,最近一直在学习自然语言处理。以后准备在这方面发展。也就计划开始写博客,希望自己有所提升。文中主要是笔者看过的文章和书籍中整理出来的,第一次发博客。当中肯定有许多瑕疵,内容肯定也不是那么完善。请大家多多包含,以后会更加努力,争取写出质量高的文章。FIGHTING...(热烈欢迎大家批评指正,互相讨论)(第一步总是很难的,坚持下去更难。希望自己迎难而上。)原创 2018-12-17 12:47:07 · 1266 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第六章):语义分析
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第六章 语义分析:意义很重要语义分析(意义生成)被定义为确定字符或单次序列意义的过程,可用于执行语义消歧任务。6.1语义分析简介名词解释:语义解释:将意义分配给句子上下文解释:将逻辑形式分配给知识表示语义分析的原语或基本单位:意义或语义(meaning或sense)语义分析用到...原创 2019-03-13 20:54:37 · 918 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第十章):NLP系统评估
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第十章 NLP系统评估:性能分析10.1 NLP系统评估要点创建黄金标准注释语料库是一项主要的任务,而且其实成本也是非常昂贵的。它通过手工标注给定的测试数据来完成该操作。以这种方式筛选的标记被视为标准标记,其可用于表示大范围的信息。10.1.1 NLP工具的评估(词性标注器、词干提取器及形态分析器)训练一个...原创 2019-03-18 11:44:49 · 596 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第九章):语篇分析
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第九章 语篇分析:理解才是可信的9.1语篇分析简介语篇分析是执行文本或语言分析的过程,其包含了文本解释以及对社交互动的理解。NLTK中用于提供一阶谓词逻辑实现的模块是nltk.sem.logic。nltk.sem.logic模块包含以下方法:substitute_bindings(bindings)...原创 2019-03-17 17:54:20 · 513 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第八章):信息检索
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第八章 信息检索:访问信息8.1信息检索简介信息检索可以定义为检索最合适的信息作为用户查询相应的过程。信息检索任务的准确度是依据精确率和召回率来度量的。召回率Recall(R)=(XnY)/Y精确率Precision(P)=(XnY)/xF-值F-Measure=2*(XnY)...原创 2019-03-16 12:12:09 · 660 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第七章):情感分析
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第七章 情感分析:我很快乐情感分析(情感生成)被定义为确定一个字符序列背后所隐含的情感信息的过程。7.1情感分析简介对电影评价进行情感分析:import nltkimport randomfrom nltk.corpus import movie_reviewsdocs = [(list(movie_...原创 2019-03-15 18:34:35 · 1067 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第三章):形态学
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第三章 形态学:在实践中学习3.1形态学简介形态学可以定义为在语素的帮助下对标识符的构造进行研究。语素是承载意义的基本语言单位。有两种类型:词根(自由语素)词缀(粘着语素)语言可分为三类:孤立语(isolating languages)(如:汉语);粘着语(agglutinativ...原创 2019-03-07 18:11:24 · 488 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第五章):语法分析
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第五章 语法分析:分析训练资料语法解析(也被称作句法分析)被定义为一个检查用自然语言书写的字符序列是否合乎正式语法中所定义的规则的过程。它是将句子分解为单词或短语序列并为他们提供特定的成分类别(n/adj/prep)的过程。5.1语法解析简介解析器是一个可以接受输入文本并构造解析树或句法树的软件。语法解析分...原创 2019-03-10 14:30:09 · 990 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第四章):词性标注
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第四章 词性标注:单词识别词性(Parts-of-speech,POS)标注被定义为将特定的词性标记分配给句中的每一个单词的过程。4.1词性标注简介词性标注例子:(词性标注器存在于nltk.tag包中并被TaggerIbase类所继承)import nltktext1=nltk.word_tokenize...原创 2019-03-08 19:13:51 · 526 阅读 · 2 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第二章)
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第二章 统计语言建模计算语言学的应用范围包括机器翻译,语音识别、智能Web搜索、信息检索和智能拼写等。2.1理解单词频率用于Alpino语料库生成unigrams:import nltkfrom nltk.util import ngramsfrom nltk.corpus import alpinopr...原创 2019-03-03 13:33:58 · 1222 阅读 · 0 评论 -
《精通Python自然语言处理( Deepti Chopra)》读书笔记(第一章)
《精通Python自然语言处理》Deepti Chopra(印度)王威 译第一章 字符串操作1.1切分1.1.1将文本切分成语句import nltktext=" Welcome readers. I hope you find it interesting. Please do reply."from nltk.tokenize import sent_tokenize #(...原创 2019-02-27 17:16:04 · 669 阅读 · 0 评论 -
词云的安装制作及数据清洗代码
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于近日提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通常,这些最新的、最适合网络的传播方式,也是最好的传播方式。 因此,“词云”就是对网络文本中出现频率...原创 2019-01-05 15:05:59 · 961 阅读 · 0 评论 -
《自然语言处理》读书笔记(江铭虎版)
第一章:概论1,自然语言处理(natural language processing, NLP)/自然语言理解(natural language understanding, NLU)/计算语言学(computational linguistics):(主要用来说明方法,侧重于工程)2,自然语言处理的目标实现计算机对自然语言的自动分析和理解,立足于实验、理论、计算三大支柱,通过-以对人...原创 2018-12-30 11:46:18 · 1339 阅读 · 0 评论 -
隐马尔可夫模型在中文分词中的应用
隐马尔可夫模型在中文分词中的应用马尔可夫模型马尔可夫链是随机变量X1,X2,X3…的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn+1对于过去状态的条件概率分布仅是Xn的一个函数,则P(Xn+1=x∣X0,X1,X2,…,Xn)=P(Xn+1=x∣Xn)这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫...原创 2018-12-22 11:11:06 · 4728 阅读 · 0 评论 -
《Python数据科学入门》之阅读笔记(第3章)
Python数据科学入门Dmitry Zinoviev著熊子源 译第三章 使用文本数据第13单元 处理HTML文件Beautifulsoup通过Python字典接口实现对HTML标签属性的访问。如果标签对象t表示超链接,则超链接目标的字符串值为t[“herf”].string。HTML标签是不区分大小写的。Soup最有用的函数:soup.find()找到目标的一个实例...原创 2019-05-19 14:04:10 · 195 阅读 · 0 评论