自然语言处理
Charles_yy
一个挣扎在学习路上的学渣渣
展开
-
词向量—Word2Vec入门及Gensim实践
在机器学习领域,语音识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的非结构化的数据,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。Word2vec是google在2013年推出的一个词向量实现工具(注意,不是词向量模型),它的特点是将所有的词向量化,这样词与词之...原创 2018-08-08 18:10:57 · 5683 阅读 · 0 评论 -
NLP:文本情感分析快速入门
最近由中国计算机学会(CCF)主办,雷锋网,香港中文大学(深圳)承办的2018全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,由于博主主要做NLP方向,主要在做情感分析,文本生成方面,所以主要关注大会NLP方面的内容,其中给大家分享一个情感分析入门的文章。国内做情感分析比较好的有:哈工大秦兵老师,秦老师多年从事自然语言处理的研究,获得国内第一个关于文本情感分析方面的自然科学基金重点...转载 2018-08-03 17:51:49 · 50027 阅读 · 10 评论 -
中文分词工具—Jieba
中文分词—Jieba 是一款Python 中文分词组件“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把...原创 2018-07-18 23:18:05 · 8541 阅读 · 0 评论 -
分词方法入门
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性、句法树等模块的效果。当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。在构建中文自然语言对话系统时,结合语...原创 2018-05-06 22:41:30 · 1377 阅读 · 0 评论 -
Word2vec 模型构建及可视化
文本本质上是一种非结构化的数据,无论过去还是现在,其在数学中的研究远远少于向量。历史上数学家牛顿是第一个在力学情境中研究向量的人。向量的概念已经存在了三个世纪,其科学性已非常成熟。而文本数据的数学探索这个概念只有几十年的历史。现在文本数据的数学思考应用尤其重要。数据的价值已被理解但是还未兑现。大部分商业相关信息最初都是非结构化形式,主要是文本。数据只有读取之后才可见,才能用于商业、教育、政府管理和...原创 2018-03-26 12:23:09 · 8277 阅读 · 1 评论 -
词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法
词向量算法是自然语言处理领域的基础算法,在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里。该算法也经历了不断的改进,但大多数仅适用于拉丁字符构成的单词(英文、法语。。。。),结合中文语言特性的词向量研究相对较少。由于中文语言的博大精深,一字一词都蕴含这丰富的语义,在自然语言处理的相关任务中对于中文语料很难处理。惊喜...原创 2018-03-16 22:32:42 · 2158 阅读 · 0 评论 -
数据可视化之文本情绪(极性)分析
本文转载:http://www.yuyidata.com/blog/y-414618ce-e328-4f8d-a98a-e5263a492ffb,有一定更改.从文本入手——文本情感(极性/意见)分析的数据可视化技术。不同于上一篇文本细节情感的可视化,文本情感极性/意见分析(后文统称文本情感分析)是一个使用面更广更重要的文本挖掘手段,被广泛运用在分析用户自己生成的文本数据上。维基转载 2018-01-27 11:02:15 · 7637 阅读 · 0 评论 -
自然语言处理中n-gram模型学习笔记
语言模型 对于很多自然语言处理领域的问题,比如机器翻译,处理要确定预测结果中的字词集合以外,还有一个非常重要的方面就是要评估文本序列是否符合人类使用的习惯。也就是要判断文本是否通顺、自然、甚至在翻译问题上,“信”、“达”、“雅”是一种高级的要求。语言模型就是用于评估文本符合语言使用习惯程度的模型。 要让机器来评估文本是否符合人类的使用习惯,一种方式是通过语言学方面的原创 2018-01-26 22:24:20 · 16182 阅读 · 1 评论 -
Summarization 文本摘要进展
文本摘要一直都是机器学习领域一个重要的热点,但是却有很大的难度。例如,给单篇文章起标题/摘要的时候,很难有词频作保证,而是需要模型可以理解内容,甚至做一些推理。在很多地方,摘要生成和机器翻译有类似之处。然而,和机器翻译不同的是,自动文本摘要的输入和输出很不平衡,此外机器翻译任务的输入输出序的列通常有一些词义层面上的直接对应,这种对应在摘要任务中却没那么明显。目前,自动文档摘要技术主要分为抽取式...原创 2018-09-04 16:51:01 · 1976 阅读 · 0 评论