数据挖掘
文章平均质量分 88
幽默书僧
学习进行时!
展开
-
文本挖掘学习笔记(一)—布尔检索
最近在学习文本挖掘,故而把书中关键的内容做个笔记,方便以后查阅。 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户需求的资料的(通常是文档)的过程。按照所处理的数据的规模,信息检索可以分为三个级别: 第一个级别是以web搜索为代表的大规模级别; 第二个级别是小规模,可以看成是与第一种规模相对的另一极端情况;原创 2017-08-16 14:07:04 · 4266 阅读 · 1 评论 -
文本挖掘学习笔记(二)—词项词典
第二次笔记:1.文档单位的选择:例如有一本书,我们可以将一整本书都看做一个文档(即索引单位);也可以将书中的每一篇文章都看做一个文档。例如,对于一个书库,我们将整本书作为一个索引单位。这时我们搜索“Chinese toys”,那么很可能返回这样一本书,在书的开头提到了Chinese,在书的结尾处提到了toys。很明显,这并不是我们所需要的结果。而我们如果用书中的某篇文章作为索引单位,得到的原创 2017-08-19 16:03:11 · 5344 阅读 · 0 评论 -
基于统计的中文目标机构名识别(缩水简化版)
最近研究基础建设的一些招中标信息,如何在一篇中标公告中识别出中标单位的名称。尝试了很多方法,感觉要么不太理想,要么方法太难了一时半会儿搞不定。有一些比较高大上的机构名识别方法,例如基于角色标注的机构名识别,里面的核心思想,大概就是先分词并标注词性,然后经过一系列统计算法,利用词性序列识别机构名,召唤率和正确率看上去都挺不错的。不过实现起来比较复杂,领导又要求尽快见成果,只能先用简单的方法凑合着原创 2017-08-31 15:55:54 · 486 阅读 · 0 评论