从7月份开始,要开始读这本由Ronen Feldman和James Sanger写的《The Text Mining Handbook》。正好学校似乎对于我们在方向的把握能力上相当放心,基本在学了一些没什么用处的课程后,就不再为我们指导什么了。
当然,因导师而异,除非导师们也都是半瓶水晃荡。不说了。。。
0 前言
0.1. TM(Text Mining, 文本挖掘) 的目标: 解决信息量过载问题。即信息量爆炸,现有的搜索引擎或者检索工具,只是在输入关键词后提供更多的查询结果。恶化了由信息爆炸带来的问题。
0.2. TM 与 数据挖掘DM,机器学习ML,自然语言处理NLP,信息检索IR,知识管理KM相关。使用了其中的某几项技术。TM就像好多其他科目,比如知识工程等等,不断的结合好几个领域的内容,演变而来。
0.3. TM的处理客体是文档集合(document collection),包括:文档集合预处理(分类、聚类、信息提取、术语提取等),中间表述存储,中间表述分析,可视化结果等。
这就是前言中有用的地方了。