自然语言处理
jollyjumper
一点记录
展开
-
朴素贝叶斯经典案例:语言识别(language detection)
我对语言识别的问题一直很感兴趣,记得10年做全网爬虫时同事写了一个简单的网页语言检测,比较简单,只是判断unicode code point是否有足够数量落在中文的code point上,连基本的html标签都没有去除,当时也没有测试效果,很可能会把日本,韩文网页也当做中文页面了. 最近学习solr/lucene,里面就带有language detection功能,可以使用两个库,一个是tika原创 2014-01-22 23:19:03 · 4767 阅读 · 1 评论 -
Boilerplate Detection Using Shallow Text Features论文小笔记
网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确. 昨天晚上在网上看到这个东西: http://code.google.com/p/boilerpipe/ 很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过原创 2014-01-24 23:39:15 · 1840 阅读 · 0 评论 -
条件随机场(CRF)的一篇不错ppt
http://wenku.baidu.com/link?url=7LBbXiKPWAPnqYexmBOhz4iCUSny6Ayg3M53Ls0IiVKdqLq-9YPNAiW3WKJ5UgihjWKmm4yTpahIIeu75BB_mM_Q1QicaLIGrOiwHUO8ktu 一直好奇条件随机场,dan转载 2014-06-22 13:08:45 · 42456 阅读 · 0 评论 -
DAT的实现
手痒,自己实现了一下,UT已经通过。在lucene4基础上实现,加上接口不到300行代码。package com.dp.junhao.jhsegmenter; import gnu.trove.iterator.TByteIterator; import gnu.trove.list.array.TByteArrayList; import gnu.trove.procedure.TBytePr原创 2017-08-11 22:48:42 · 820 阅读 · 0 评论