Web 文本挖掘(TextMining)技术

文本挖掘的起源

  文本数据库(web文档数据)

  半结构化数据(semistructure data)

  信息检索技术(information retrieval)

  Web文本挖掘的过程

  Web文本挖掘的一般处理过程
  
  特征的建立

  特征集的缩减

  学习与知识模式的提取

  知识模式

  模式质量的评价

  文档集

  文本特征的建立

  定义:文本特征指的是关于文本的元数据。

  分类:

    描述性特征:文本的名称、日期、大小、类型等。

    语义性特征:文本的作者、标题、机构、内容等。

  表示(文档建模):

  采用向量空间模型(VSM)(矩阵)

  特征向量

  (其中ti为词条项,wi(d)为ti在d中的权值)

  文本特征评价函数的数学表示

  信息增益(information gain)

  期望交叉熵(expected cross entropy)
  
  互信息(mutual information)

  F是对应于单词W的特征;

  P(W)为单词W出现的概率;

  P(Ci)为第i类值的出现概率;

  p(Ci|W)为单词W出现时属于第i类的条件概率。
  
  文本特征评价函数的数学表示(续)

  文本证据权(the weight of evidence for text)

  词频(word frequency)

  P(W)为单词W出现的概率;

  P(Ci)为第i类值的出现概率;

  p(Ci|W)为单词W出现时属于第i类的条件概率;

  TF(W)为单词在文档集中出现的次数。

  文档建模

  词频矩阵

  行对应关键词t,列对应文档d向量将每一个文档视为空间向量v向量值反映单词t与文档d的关联度 表示文档词频的词频矩阵


   文档相似度计算


余弦计算法(cosine measure)

余弦相似度定义: "略"
缺点:文档“无限”,导致矩阵增大,计算量增加


特征集的缩减


潜在语义标引(latent semantic indexing)方法利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)

潜在语义标引方法基本步骤:

1.建立词频矩阵,frequency matrix

2.计算frequency matrix的奇异值分解

分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K)

3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量

4.保存所有向量集合,用高级多维索引技术为其创建索引

5.用转换后的文档向量进行相似度计算


其他文本检索标引技术

倒排索引(inverted index)

一种索引结构,包含两个哈希表索引表或两个B+树索引表

找出与给定词集相关的所有文档

找出与指定文档相关的所有词

易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大

签名文件(signature file)

doc_1, ... , doc_n

Term_n

tn_1, ... ,tn_n

Doc_n














doc_1, ... , doc_ j


Term_2


t2_1, ... ,t2_n


Doc_2


doc_1, ... , doc_i


Term_1


t1_1, ... ,t1_n


Doc_1


posting_list

term_ID

posting_list

doc_ID

词表(term_table)

文档表(document_table)

词性标注

定义:将句子中兼类词的词性根据上下文唯一地确定下来。

兼类词分类:

同型异性异义兼类词:例如:领导(动词/名词)

同型异性同义兼类词:例如:小时(量词/名词)

异型同性同义兼类词:例如:电脑,计算机

自动词性标注就是用计算机来自动地给文本中的词标注词类。

在英语、汉语等自然语言中,都存在着大量的词的兼类现象,这给文本的自动词性标注带来了很大的困难。因此,如何排除词类歧义,是文本自动词性标注研究的关键问题。

标注技术路线:基于概率统计和基于规则

自动词类标注

早在60年代,国外学者就开始
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 你可以在Maven中央存储库中找到WordExtractor的依赖项。在你的Maven项目中,你可以将以下依赖项添加到你的pom.xml文件中: ``` <dependency> <groupId>org.textmining</groupId> <artifactId>wordextractor</artifactId> <version>1.5</version> </dependency> ``` 或者,你也可以从Maven中央存储库手动下载WordExtractor的JAR文件,并将其导入到你的项目中。 ### 回答2: WordExtractor是一个用于从Word文档中提取内容的Java库。它可以处理并提取.doc和.docx格式的文档,并且具有很好的兼容性和稳定性。 对于使用Maven构建项目的开发人员来说,WordExtractor的Maven配置是非常简单的。首先,需要在项目的pom.xml文件中添加WordExtractor的依赖项。可以通过在dependencies标签中添加以下代码来实现: ```xml <dependency> <groupId>com.devglan.wordexcel</groupId> <artifactId>word-extractor</artifactId> <version>1.0</version> </dependency> ``` 完成这一步后,Maven会自动从中央存储库下载WordExtractor的jar文件,并将其添加到项目的类路径中。 接下来,可以在Java代码中使用WordExtractor库。只需使用合适的导入语句引入WordExtractor类,然后可以实例化一个WordExtractor对象并调用它的方法来提取Word文档的内容。例如: ```java import com.devglan.wordexcel.WordExtractor; public class Main { public static void main(String[] args) { WordExtractor extractor = new WordExtractor(); String text = extractor.extractText("path/to/word/document.docx"); System.out.println(text); } } ``` 在上面的示例中,我们创建了一个WordExtractor对象,并使用`extractText`方法提取了指定Word文档的内容。提取的文本将作为字符串返回,并打印在控制台上。 总的来说,WordExtractor的Maven配置和使用都相对简单。只需在pom.xml中添加依赖项,然后在代码中使用相应的导入语句和方法调用即可。这使得开发人员能够轻松地从Word文档中提取所需的内容。 ### 回答3: WordExtractor是一个用于从Microsoft Word文档中提取文本内容的Java库。它使用了Apache POI库来解析和提取Word文档中的文本信息。 在使用WordExtractor之前,首先需要在项目的pom.xml文件中配置maven依赖。可以在dependencies标签中添加如下依赖项: ```xml <dependencies> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.2</version> </dependency> <dependency> <groupId>org.apache.poi</groupId> <artifactId>poi-ooxml</artifactId> <version>4.1.2</version> </dependency> </dependencies> ``` 上述依赖项指定了需要使用的Apache POI库的版本,以及需要的poi和poi-ooxml模块。 完成上述配置后,可以使用maven命令自动下载所需的库文件,并将其添加到项目的classpath中。 接下来,在Java代码中使用WordExtractor可以实现从Word文档中提取文本。首先需要创建一个WordExtractor对象,然后使用该对象的getText()方法来获取文本内容。例如: ```java import org.apache.poi.xwpf.extractor.XWPFWordExtractor; import org.apache.poi.xwpf.usermodel.XWPFDocument; import java.io.FileInputStream; import java.io.IOException; public class WordExtractorExample { public static void main(String[] args) { try { FileInputStream fis = new FileInputStream("path/to/word/document.docx"); XWPFDocument doc = new XWPFDocument(fis); XWPFWordExtractor extractor = new XWPFWordExtractor(doc); String text = extractor.getText(); System.out.println(text); extractor.close(); doc.close(); } catch (IOException e) { e.printStackTrace(); } } } ``` 上述代码中,首先创建一个FileInputStream对象来读取Word文档文件。然后创建XWPFDocument对象,并将FileInputStream对象传递给它的构造函数。接着创建XWPFWordExtractor对象,并将XWPFDocument对象传递给它的构造函数。最后通过getText()方法获取文本内容,并输出到控制台。 以上就是使用maven配置WordExtractor的方法,通过这个库可以方便地从Word文档中提取文本内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值