- 博客(7)
- 资源 (13)
- 收藏
- 关注
原创 研究生导师的肺腑之言
研究生导师的肺腑之言 好东西收下啦分享首次分享者:兰色8-) 香茗已被分享115次评论(0)复制链接分享转载举报这篇文章是从小木虫里花金币下载的,希望对正在为理想和前途奋斗的战友们以启示,也希望为正在迷茫中探索的同学们以提醒。研究生导师的肺腑之言<br />1. 如果平时几乎没看过英文原文,读不懂怎么办? <br /> 其实我以前也根本没读过原文,也看不懂。这儿有个好办法:找一本中文经典的书籍,仅看某一节你感兴趣或与你相关的内容,然后先找一两篇英文的综述(review)认真阅读一下,不会的单词可用金山词
2011-04-16 21:02:00 546
原创 文本分类入门(九)文本分类问题的分类
<br /><br />开始之前首先说说分类体系。回忆一下,分类体系是指事先确定的类别的层次结构以及文档与这些类别间的关系。<br /> 其中包含着两方面的内容:<br /> 一,类别之间的关系。一般来说类别之间的关系都是可以表示成树形结构,这意味着一个类有多个子类,而一个子类唯一的属于一个父类。这种类别体系很常用, 却并不代表它在现实世界中也是符合常识的,举个例子,“临床心理学”这个类别应该即属于“临床医学”的范畴,同时也属于“心理学”,但在分类系统中却不便 于使用这样的结构。想象一下,这相当于类别
2011-04-15 14:01:00 406
原创 文本分类入门(七)相关概念总结
<br /><br />学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。<br /> 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。<br /> 非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [22]。典型的非监督学习例子是聚类,类别的数量,名称,事先全都没有确定,由计算机自己观察样例来总结得
2011-04-15 13:55:00 279
原创 统计学习的几种方法
<br />(1)<br />Rocchio算法<br /> Rocchio算法应该算是人们思考文本分类问题时最先能想到,也最符合直觉的解决方法。基本的思路是把一个类别里的样本文档各项取个平均值(例如把所有 “体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这 个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相像(八股点说,判断他们之间的距离)就可以确定新文档属不属于这个类。 稍微改进
2011-04-15 13:46:00 444
原创 JAVA面试12题
问:Java的数据结构你用过哪些?Map与Set的本质区别是什么? <br /> 答:Java常见的数据结构有Collection和Map,其中Collection接口下包括List和Set接口,其下又有多个实现类如List下有ArrayList、LinkedList和Vector等实现类,Set下有HashSet、LinkedSet等实现类和SortedSet接口,HashSet下有LinkedHashSet子类,SortedSet接口下有TreeSet实现类。Map接口下有HashMap(有L
2011-04-15 11:17:00 410
原创 特征选择
<br />特征提取实际上有两大类方法。一类称为特征选择(Term Selection),指的是从原有的特征(那许多有用无用混在一起的词汇)中提取出少量的,具有代表性的特征,但特征的类型没有变化(原来是一堆词,特 征提取后仍是一堆词,数量大大减少了而已)。另一类称为特征抽取(Term Extraction)的方法则有所不同,它从原有的特征中重构出新的特征(原来是一堆词,重构后变成了别的,例如LSI将其转为矩阵,文档生成模型将其 转化为某个概率分布的一些参数),新的特征具有更强的代表性,并耗费更少的计算资源。
2011-04-14 16:53:00 363
原创 统计学习方法理论
<br /><br />统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计 算机从这些文档重挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见 过的文档进行分类时,便使用这些分类器来进行。<br /> 现如今,统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础(相比之下,知识工程方法中专家的主观因
2011-04-14 16:42:00 433
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人