机器学习
文章平均质量分 52
fancyerII
这个作者很懒,什么都没留下…
展开
-
好久没看论文了
好久没有读论文了,去以前收藏的一些作者的网页逛了逛。Hal 的主页和blog上更新了不少东西。最新的一篇blog列举了他心中TOP N的NIPS 2008的文章。我选择了感兴趣的看了看。 1,Large Margin Taxonomy Embedding with an Application to Document Categorization 为了做文档分原创 2009-01-10 23:58:00 · 600 阅读 · 0 评论 -
知识 vs 学习
今天下午师兄做报告,讲了知识(knowledge),怎么用NLP帮助构建领域知识。 一般解决问题是都有两种思路:知识的和数据驱动的。 一般的看法是,知识就是规则,通过专家建立起复杂的规则系统,然后解决问题就是根据规则进行判定。这其实就是一个确定性的模型。而数据驱动则是根据数据学习出规则来。学习出来的规则可能是显式的,比如决策树学习出来就是显式的规则(如果属性1=xxx a原创 2009-01-13 16:30:00 · 617 阅读 · 0 评论 -
中文分词
中文分词是很多NLP和IR任务的一个必要且重要的步骤。不过什么是“词”,现在还是存在争论的。拿sighan2005的两个分词标准——北大计算语言所的标注和 Penn Treebank(CTB)来说,他们就有很多差异。链接为http://sighan.cs.uchicago.edu/bakeoff2005/data/pku_spec.pdfhttp://www.cis.upenn.原创 2009-02-12 23:03:00 · 1521 阅读 · 0 评论 -
4-23
晚上去了趟图书大厦,回来好大雨。买了本《JQuery实战》,因为听说这个js库不错,而且这本书的评价好像也不错。然后发现了一本《可视化数据》。因为老板让我做一些可视化的事情,烦得很。不过可视化确实是件很重要的事情,用户第一眼看到的就是界面。另外,可视化其实也是一种艺术,因为数据都是高维的,用二维或者三维的方式竟可能多的展示信息其实也可以看成降维。 今天想把LDA在ACL的数据上跑一跑,很久原创 2009-04-23 21:13:00 · 1825 阅读 · 0 评论