自然语言处理
风风雨雨中寻觅
平平淡淡,简简单单,取长补短,修炼身心
展开
-
R语言文本挖掘综合性处理tm包详解
1.tm包介绍:tm包(建议使用版本0.7-4)是R语言为文本挖掘提供综合性处理的package,vignette()命令可以得到相关的文档说明。tm包的主要功能有:1.数据载入;2.语料库处理;3.数据预处理;4.元数据管理;5.建立“文档-词条”矩阵2.载入数据的方式:tm包主要管理文件的数据结构称为语料库(Corpus)它表示一系列文档的集合。语料库又分为动态语料库(Volatile C...原创 2018-07-16 19:39:52 · 6867 阅读 · 0 评论 -
TF-IDF算法
计算机提取一篇文章关键词涉及文字处理、信息检索、数据挖掘等很多计算机领域。从词频角度统计出现次数最多的“的”、“是”、“在”这一类最常用的词称为停用词(表示对找到结果毫无帮助,必须过滤掉的词)衡量一个词是不是常用词,如果某个词比较少见,但是在文章中多次出现,那么这个词很可能反映文章特性,故需要在词频统计基础上引入重要性调整系数(逆文档概率IDF,大小与一个词的常见程度成反比)。有了词频和逆文档...原创 2019-02-20 18:16:52 · 452 阅读 · 0 评论 -
词袋模型
1.概述bag of words词袋模型是信息检索领域常见的文档表示方法,BOW模型假定对于一个文档,忽略其单词顺序、语法、句法等要素,仅看做是若干词汇组合(文档中每个单词的出现都是相对独立的,不依赖于其他单词是否出现),近年来BoW模型广泛应用于计算机视觉领域1.词频做向量值John likes to watch movies. Mary likes too.John also ...原创 2019-02-20 17:47:50 · 452 阅读 · 0 评论 -
词向量与句向量概述
比较常见的词向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec词向量一般看作是文档特征,不同词向量有不同用法,主要有四类词向量:1.hash算法及衍生;2.BOW算法延伸;3.word2vec延伸;4.LDA主题延伸 一个词一列向量-----> hash算法--->word2vec(考虑上下文语境) 一个词一个向量...原创 2019-01-22 11:05:07 · 4044 阅读 · 0 评论 -
腾讯文智自然语言处理介绍与情感分析API调用
一.产品概述文智中文语义开放平台是基于并行计算系统和分布式爬虫平台,结合独特的语义分析技术,一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。用户能够基于平台对外提供的OpenAPI实现搜索、推荐、舆情、挖掘等语义分析应用腾讯云文智中文语义平台以SDK模块方式提供服务,支持多种编程语言二.产品功能Action id查询:https://cloud.tenc...原创 2018-11-05 18:30:01 · 5454 阅读 · 6 评论 -
人脸与图像识别、NLP与情感分析、语言翻译API调用
API是一套用于构建应用软件程序的规范、协议和工具。以下所有的API可归类到人脸和图像识别;文本分析+NLP+情感分析;语言翻译一、人脸和图像识别1.Animetrics Face Recognition:用于检测图片中的人脸并将其与一组已知的人脸进行匹配。API还可添加或删除可搜索图库中的主题,并添加或删除主题中的人脸2.Betaface:面部识别和Web检测服务。其特点包括多种面部...原创 2018-11-02 19:18:45 · 1882 阅读 · 0 评论 -
Tencent AI Lab Embedding Corpus使用-提取目标词汇词向量+余弦相似度计算
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases为超过800万个中文单词和词语(包括标点符号)提供200维矢量表示,这些向量捕捉了中文单词和词语的语义含义,可广泛应用于许多中下游的中文处理任务。Tencent_AILab_ChineseEmbedding.txt(开源下载文件)第一行显示嵌入总数和尺寸大小,下面每一行(第一列...原创 2018-11-01 20:19:10 · 6154 阅读 · 0 评论 -
rword2vec开源算法包实现word2vec词向量生成
传送门:wordVectors开源算法包实现word2vec词向量生成R语言中rword2vec包和wordVectors包均能实现word2vec词向量生成,目前尚未研究两者之间的优劣(但从算法包的description来看,建议用rword2vec)rword2vec包是R与Google的word2vec接口,rword2vec将文本语料库作为输入,将单词向量作为输出。它首先根据训练文...原创 2018-07-27 11:42:23 · 2410 阅读 · 4 评论 -
基于Negative Sampling的word2vec模型原理
传送:Word2Vec词嵌入向量延伸-原理剖析 基于Hierarchical Softmax的word2vec模型原理1.基于Negative Sampling的梯度计算Negative Sampling摒弃了霍夫曼树,采用负采样的方法求解(对生僻词的迭代求解进行运算优化)。训练样本中w表示中心词(是正例),周围上下文共2c个词context(w),通过Negati...原创 2018-07-30 13:58:33 · 756 阅读 · 0 评论 -
wordVectors开源算法包实现word2vec词向量生成
传送门:rword2vec开源算法包实现word2vec词向量生成#安装wordVectors包devtools::install_github(“bmschmidt/wordVectors”)该包使用李舰的word2vec代码训练word2vec模型,可以读取和写入二进制的word2vec格式(方便导入预先训练好的模型),并提供读取模型一部分(行或列)的工具,以便在内存有限的情况下探...原创 2018-07-26 20:55:49 · 1359 阅读 · 0 评论 -
基于Hierarchical Softmax的word2vec模型原理
传送:Word2Vec词嵌入向量延伸-原理剖析 基于Negative Sampling的word2vec模型原理1.基于Hierarchical Softmax的梯度计算与神经网路语言模型相比,霍夫曼树的所有内部节点类似神经网络隐藏层的神经元,根节点对应投影后的词向量,叶子节点类似神经网络输出softmax层的神经元,叶子节点的个数是词汇表大小。在霍夫曼树中,隐...原创 2018-07-30 11:58:29 · 2094 阅读 · 0 评论 -
xpdf用法、antiword用法、python-docx用法
PDF的解析: 1.OCR软件识别,如FineReader; 2.基于Java的SDK,如pdfbox,itext; 3.基于Python的SDK,如pdfMiner,pyPdf; 3.其他工具pdf2htmlex,xpdf本篇只介绍xpdf PDF的转换解析工具-xpdf,可以pdftohtml,pdftotext,pdfto...原创 2018-07-14 23:07:53 · 3563 阅读 · 4 评论 -
Word2Vec词嵌入向量延伸-原理剖析
传送:基于Hierarchical Softmax的word2vec模型原理 基于Negative Sampling的word2vec模型原理一、基本概念准备稀疏向量(one-hot representation):用一个很长的向量来表示一个词,向量的长度为词典大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引。举例如果有一个词典[“面条”,”...原创 2018-07-26 15:22:35 · 2191 阅读 · 0 评论 -
自然语言处理中语料库的理解
语料库中存放的是在语言实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库(corpus,复数corpora)指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究一、语料库的分类确定语料库类型的主要依据是它的研究目的和用途,这一点往往能够体现...转载 2018-07-24 19:24:13 · 3211 阅读 · 0 评论 -
自然语言处理步骤与关键实际应用场景
2019-02-07修改,完善NLP关键的实际应用场景描述一、自然语言处理步骤1.收集数据:文本信息的常见来源包括-商品评价、用户产出的内容(推文、帖子、提问等)、问题解决方案等2.清洗数据:去除一切不相关的字符-比如任何非数字字母的字符(针对英文);标记文本,并拆分为独立的单词;去除不相关的词语;所有字母转换为小写;将拼错的单词或者多种拼法的单词与某个特定的表达绑定;考虑词形还原...转载 2018-07-24 15:02:23 · 2916 阅读 · 0 评论 -
中文分词工具Rwordseg
Rwordseg是一个R环境下的中文分词工具,引用Ansj包(使得Ansj可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域)支持行业词典、用户自定义词典,Ansj是开源的java中文分词工具,基于中科院ictclas中文分词算法,采用隐马尔科夫模型(HMM)。Rwordseg特点有三,一是分词准确,二是分词速度超快,三是可以导入自定义词库,也可导入搜狗输入法的细胞...原创 2019-02-20 20:00:32 · 867 阅读 · 0 评论