文本挖掘
红豆和绿豆
这个作者很懒,什么都没留下…
展开
-
R语言-文本挖掘 主题模型 文本分类
####需要先安装几个R包,如果有这些包,可省略安装包的步骤。#install.packages("Rwordseg")#install.packages("tm");#install.packages("wordcloud");#install.packages("topicmodels")例子中所用数据数据来源于sougou实验室数据。数据网址:http:/转载 2017-04-23 13:41:07 · 2904 阅读 · 1 评论 -
文本分类算法之--BP神经网络
神经网络文本分类器可采用一种三层前馈型网络,来进行自动知识获取,如图一所示。网络有三个基本层,即输入层、隐含层和输出层。每个层都包含若干个节点神经元,输入层的节点数通常为矢量的个数,输出层节点数为输出矢量的个数。层与层之间的每个连接都有一个可以调整的权,它决定一个输入矢量对输出矢量的影响。BP神经网络算法的介绍详细介绍每一个过程原创 2016-02-28 13:16:41 · 5870 阅读 · 0 评论 -
文本分类算法之--KNN算法的简介
1、KNN算法的简介kNN算法就是找到k个最相似的样本,这些样本所在的类,就是当前文档的所属的类。如下图:绿色圆圈表示你想分类的文本,其他是已知类别的样本。图中其他形状和绿色圆圈的距离代表了相似度。如果k = 3,就是取3个最相似的文本,那么1个蓝色框,2红色三角被选中,因为红色三角多,则绿色圆圈所属的类就是红色三角所在的类。如果k = 5,3个蓝色框和2个红色三角选中,那么就属于蓝色框所原创 2016-02-28 11:12:45 · 3515 阅读 · 0 评论 -
基于libsvm的中文文本分类原型
转载 http://blog.csdn.net/marising/article/details/5844063支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性 及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结转载 2016-02-28 10:53:17 · 716 阅读 · 0 评论 -
文本分类的算法的简单的介绍之支持向量机
http://www.cnblogs.com/LeftNotEasy/archive/2011/05/02/basic-of-svm.html1、支持向量机一、线性分类器: 首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑转载 2016-02-28 09:44:11 · 3887 阅读 · 0 评论 -
文本挖掘工具的介绍
1、商业文本挖掘的工具2、开源的数据挖掘工具ROST CM 确实是一个很好用的工具。主要用于写论文,真的很好用。LingPipe主要用于自然语言的处理:主题分类(Top Classification)命名实体识别(Named Entity Recognition)词性标注(Part-of Speech Tagging)句题检测(Sen原创 2016-02-26 18:32:10 · 10757 阅读 · 0 评论 -
基于LingPipe的文本倾向性分析–LingPipe学习笔记
http://www.huangyunkun.com/2012/06/17/LingPipe_1/文本倾向性分析文本倾向性分析(情感分析 )是将用户的观点分为“正面”和“负面”,有时候会多一个“中性”。文本倾向性分析一个比较直观的应用就是追踪用户对于一个事物的观点和偏好,比如分析豆瓣上一个电影的评论进行分析。正因为如此情感分析又被称为观点挖掘。LingPipel转载 2016-02-26 18:23:37 · 2449 阅读 · 1 评论 -
文本挖掘--将分词之后的文档转化为结构化的数据
将分词后的文本转化为数据结构化1、使用关系型数据库 对文本数据的结构化都是最具挑战的,大量的文本需要进行词频的统计、特征提取和降维。其实难点的根本是我们在做词频统计时,需要对所有的文本文件进行遍历,建立一个包含所有词的字典,如果文件集非常庞大、词比较多,这个词典就会很大,而且在第二次遍历文件进行词频统计的过程中,内存、寻址、计算的开销都是十分巨大的。 它不需要很复杂的安装和配置原创 2016-02-26 15:22:40 · 7315 阅读 · 0 评论 -
文本挖掘--LTP-cloud 分词
http://www.ltp-cloud.com/document/语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心,历时十年时间研究得一整套开放的中文自然语言处理系统。 LTP 基于 XML 的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 ,其中包括词法、句法、语义等 5项中原创 2016-02-26 10:07:47 · 2893 阅读 · 0 评论 -
文本挖掘系统的实现之R语言分词
1、文本挖掘的发展 对于文本挖掘大体可以分为两大类,一种是对单个文本的挖掘,主要是做文本结构析,文本摘要、信息表现,主要是挖掘单个文本中有价值的信息,在内容或结构上,主要应用在文本检索领域或搜索引擎;另一种是对文档集的,主要是做文本的分类、聚类,通过提取文本的某些特征对文本进行分类聚类,可以应用在文件的自动管理和垃圾邮件的过滤等方面。2、 中文文本挖掘的流程 1)数据源:这是文本挖掘的原创 2016-02-25 20:43:40 · 2398 阅读 · 0 评论 -
文本挖掘分类算法--BP神经网络的一个具体的案例
原创 2016-02-28 14:11:48 · 4034 阅读 · 1 评论 -
文本分类算法之--单层感知器的神经网络
http://www.cnblogs.com/wengzilin/archive/2013/04/24/3041019.html一、感知器的学习结构感知器的学习是神经网络最典型的学习。目前,在控制上应用的是多层前馈网络,这是一种感知器模型,学习算法是BP法,故是有教师学习算法。一个有教师的学习系统可以用图1—7表示。这种学习系统分成三个部分:输入部,训练部和输出转载 2016-02-28 14:44:33 · 4572 阅读 · 0 评论 -
文本分类算法之-LMS神经网络算法的介绍
神经网络学习的梯度算法从感如器的学习算法可知,学习的目的是在于修改网络中的权系数,使到网络对于所输入的模式样本能正确分类。当学习结束时,也即神经网络能正确分类时,显然 权系数就反映了同类输人模式样本的共同特征。换句话讲,权系数就是存储了的输人模式。由于权系数是分散存在的,故神经网络自然而然就有分布存储的特点。前面的感知器的传递函数是阶跃函数,所以,它可以用作分类器。前面一节所讲的感转载 2016-02-28 15:09:02 · 2452 阅读 · 0 评论 -
文本挖掘之降维技术之特征选择
1、为什么要进行降维处理? 目前大多数使用向量空间模型对文本表示成为向量形式,而向量的属性则有可能涉及到中文中的所有词汇,其向量的维数是非常巨大的,同时考虑到一篇文章只不过包含极少数词语(比如,一篇文档只由儿百个词语组成),可知文档表示向量的稀疏性。这样高维的特征空间对文本分类的运算时间和空间复杂性是很不利的,因此在进行文本分类之前需要对文本进行特征降维,以最大程度的提高文本分类的精度,原创 2016-02-29 16:41:11 · 7272 阅读 · 2 评论 -
CRF的开源实现
crf类似于HMM模型,主要用于实体识别http://crf.sourceforge.net/ 这是开源的Java实现原创 2016-07-27 17:29:46 · 2410 阅读 · 0 评论 -
计词unigram和bigram的频次
http://blog.csdn.net/niuox/article/details/11395397在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一转载 2016-07-27 14:45:36 · 9192 阅读 · 1 评论 -
Bag-of-words model
http://www.cnblogs.com/platero/archive/2012/12/03/2800251.htmlBag-of-words model (BoW model) 最早出现在NLP和IR领域. 该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档. 近年来, BoW模型被广泛应用于计算机视觉中. 与应用于文本的BoW类比, 图像的转载 2016-07-27 14:35:30 · 478 阅读 · 0 评论 -
不同文本模型的选择之ROC曲线
原创 2016-02-29 09:07:28 · 1168 阅读 · 0 评论 -
文本分类模型的评估
首先创建一个混洗矩阵度量分类器模型主要考虑以下几个度量的公式如何更好的使用样本计算模型的准确率?(1)使用保持与随机二次抽样方法2、交叉验证3、自助法(就是有放回的抽样)原创 2016-02-29 08:45:17 · 2542 阅读 · 0 评论 -
文本分类算法之--贝叶斯分类算法的实现Java版本
package com.vista;import java.io.IOException; import jeasy.analysis.MMAnalyzer;/*** 中文分词器*/public class ChineseSpliter { /** * 对给定的文本进行中文分词 * @param text 给定的文本转载 2016-02-28 18:14:47 · 9436 阅读 · 28 评论 -
文本分类算法之--贝叶斯文本分类算法
文本分类过程例如文档:Good good study Day day up可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。在文本分类中,假设我们有一个文档d∈X,类别c又称为标签。我们把一堆打了标签的文档集合作为训练样本,∈X×C。例如:={Beijing joins the World Trade Organization, C原创 2016-02-28 17:41:44 · 2366 阅读 · 0 评论 -
Baye分类算法的介绍
1、Baye算法的介绍2、朴素贝叶斯3、使用朴素贝叶斯的一个简单的例子4、使用拉普拉斯平滑因子平滑原创 2016-02-28 15:54:11 · 762 阅读 · 0 评论 -
【R文本挖掘】中文分词Rwordseg
下载安装方法:install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")注意在之前要安装好JAVA,并配置后JAVA环境 1. 分词操作:(1)segmentCN(strwords)> segmentCN("你好北京")[1] "你好" "北京"转载 2016-02-26 08:51:46 · 1739 阅读 · 0 评论 -
文本挖掘的介绍
1、文本挖掘的定义文本挖掘是指从大量文本的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么文本挖掘的过程就是从输入到输出的一个映射ξ:C→ p。2、文本挖掘过程包含的技术文本特征的提取、信息检索、自然语言处理、文本挖掘、文本分类、文本聚类、关联分析等等3、文本挖掘的一般过程3.1 数据预处理技术预处理技术主要包括Stemming(英文)/分词(中文原创 2016-02-24 19:05:48 · 5341 阅读 · 0 评论 -
文本挖掘之详细整体的流程
1、分词2、特征权重的计算3、模型的选择(1)向量空间模型与布尔模型(2)概率模型4、特征选择IG(特征选择),DF(文档频率),IF-IDF,ECE(期望交叉熵),X方,MI(文档互信息),WET(文档证据权重),OI,CC(相关系数)等常用的特征选择在我前面的文章都有提到5、特征抽取LDA(线性原创 2016-03-04 15:06:06 · 8341 阅读 · 0 评论 -
文本挖掘之降维技术之特征提取之因子分析(FA)
因子分析法(FA) 因子分析法是通过将原有变量内部的相互依赖关系进行数据化,把大量复杂关系归为少量的几个综合因子的统计方法。它的基本思想是通过分析各变量之间的方差贡献效果,将大的即相关性高的联系比较紧密的分在同一个类别中,而不同类的则相关性是比较低的,这其中一个类别描述了一种独立结构,这个结构在因子分析法中叫做公共因子。这个方法的研究目的就是尝试使用少数几个不可测的通过协方差矩阵计算得来原创 2016-03-04 14:21:36 · 7835 阅读 · 0 评论 -
文本挖掘之降维技术之特征抽取之非负矩阵分解(NMF)
通常的矩阵分解会把一个大的矩阵分解为多个小的矩阵,但是这些矩阵的元素有正有负。而在现实世界中,比如图像,文本等形成的矩阵中负数的存在是没有意义的,所以如果能把一个矩阵分解成全是非负元素是很有意义的。在NMF中要求原始的矩阵的所有元素的均是非负的,那么矩阵可以分解为两个更小的非负矩阵的乘积,这个矩阵有且仅有一个这样的分解,即满足存在性和唯一性。 Contents转载 2016-03-03 20:53:41 · 7495 阅读 · 1 评论 -
文本分类之降维技术之特征抽取之SVD矩阵的分解的原理的介绍
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧:转载 2016-03-02 18:29:58 · 4076 阅读 · 1 评论 -
LSA潜在语义分析与信息检索
1 LSA IntroductionLSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文转载 2016-03-03 10:47:25 · 4721 阅读 · 0 评论 -
奇异值与潜在语义索引LSI
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html潜在语义索引(Latent Semantic Indexing)与PCA不太一样,至少不是实现了SVD就可以直接用的,不过LSI也是一个严重依赖于SVD的算法,之前吴军老师在矩阵计算与文本处理中的分类问题中谈到: “三个矩阵转载 2016-03-03 12:12:30 · 795 阅读 · 0 评论 -
文本挖掘之降维之特征抽取之主成分分析(PCA)
PCA的原理原创 2016-03-02 10:49:22 · 5702 阅读 · 0 评论 -
PCA使用SVD解决
http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 主成分分析在上一节里面也讲了一些,这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模转载 2016-03-02 18:48:30 · 3331 阅读 · 0 评论 -
文本分类之降维技术之特征抽取之LDA线性判别分析
特征抽取方法则可以看作从测量空间到特征空间的一种映射或变换,一般是通过构造一个特征评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中的值抽取最高的若干个特征。 常用的特征抽取方法主要有主成分分析(PCA)、潜在语义索引、非负矩阵分解等。原创 2016-03-02 09:06:44 · 7764 阅读 · 1 评论 -
文本挖掘的主要应用的方向
目前文本挖掘的主要研究领域有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。原创 2016-03-04 15:26:43 · 6449 阅读 · 0 评论 -
文本挖掘之文本聚类的介绍以及应用
文本聚类是一个将文本集分组的全自动处理过程,是一种典型的无指导的机器学习过程。类是通过相关数据发现的一些组,类内的文本和其它组相比更为相近。换一种说法就是,文本聚类的目标是找到这样一些类的集合,类之间的相似度尽可能最小,而类内部的相似性尽可能最大。作为一种无监督的机器学习方法,聚类是不需要训练过程的,也不需要预先对文档进行手工标注类别,所以聚类技术很灵活并有较高的自动化处理能力,目前已经成为对文本原创 2016-03-04 15:53:45 · 5915 阅读 · 0 评论 -
文本聚类的处理流程
1、文本聚类的处理流程2、将文档分词、词性标注、实体标注,去除停用词等将一片文章形成由多个词组成的向量。最后根据文档的集合,形成一个词的向量空间。行代表一片文章,列代表词。如下图:n代表n篇文章,m代表有m个单词组成向量空间3、由于向量空间的词太多,需要降维4、根据降维后的特征,计算每一篇文档中每一个词的权重,采用TF-IDF方式5、有了这个数据矩阵之后,我们需要计原创 2016-03-04 16:38:51 · 7232 阅读 · 0 评论 -
Web文本挖掘系统的应用方向
Web文本挖掘系统的应用方向:文本分类系统,文本聚类系统、文档中关联规则发现系统、文献资料的浏览导航系统、文摘自动生成系统及文档的分布分析与趋势预测。(2)文本聚类原创 2016-03-19 12:03:57 · 1223 阅读 · 0 评论 -
Web挖掘的综述
原创 2016-03-19 11:02:53 · 553 阅读 · 0 评论 -
层次聚类之高斯混合模型聚类算法原理的介绍
单高斯分布模型GSM多维变量X服从高斯分布时,它的概率密度函数PDF为:x是维度为d的列向量,u是模型期望,Σ是模型方差。在实际应用中u通常用样本均值来代替,Σ通常用样本方差来代替。很容易判断一个样x本是否属于类别C。因为每个类别都有自己的u和Σ,把x代入(1)式,当概率大于一定阈值时我们就认为x属于C类。从几何上讲,单高斯分布模型在二维空间应该近似于椭圆,在三原创 2016-03-06 10:43:36 · 3118 阅读 · 0 评论 -
层次聚类之Chameleom(动态建模多阶段聚类)
算法介绍本篇文章讲述的还是聚类算法,也是属于层次聚类算法领域的,不过与上篇文章讲述的分裂实现聚类的方式不同,这次所讲的Chameleon算法是合并形成最终的聚类,恰巧相反。Chamelon的英文单词的意思是变色龙,所以这个算法又称之为变色龙算法,变色龙算法的过程如标题所描绘的那样,是分为2个主要阶段的,不过他可不是像BIRCH算法那样,是树的形式。继续看下面的原理介绍。算法原理转载 2016-03-05 11:24:54 · 2515 阅读 · 0 评论