- 博客(16)
- 资源 (1)
- 收藏
- 关注
原创 决策树(Decision Tree)模型笔记
以前看集体智慧编程时觉得决策树模型没什么大不了的,看得不仔细.昨天知道网页正文抽取(full-text extraction)中对boilerplate和content块的判断就是使用该模型,终于有点直观了,复习一下吧.集体智慧编程中以预测用户是否选择付费,付费是basic还是premium的分类问题为例讲解.决策树每一步分支都采用贪心策略,熵(entropy)或基尼不纯度(gini im
2014-01-25 17:12:58 7168
转载 验证码识别image/pdf to string 开源工具
http://code.google.com/p/tesseract-ocr/ 同事的分享,这个图片识别率还是比较高。破火车站的识别很简单。 还有中文类库。具体的分类方法还没研究哈.
2014-01-24 23:42:32 1297
原创 Boilerplate Detection Using Shallow Text Features论文小笔记
网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.昨天晚上在网上看到这个东西:http://code.google.com/p/boilerpipe/很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过
2014-01-24 23:39:15 1840
原创 朴素贝叶斯经典案例:语言识别(language detection)
我对语言识别的问题一直很感兴趣,记得10年做全网爬虫时同事写了一个简单的网页语言检测,比较简单,只是判断unicode code point是否有足够数量落在中文的code point上,连基本的html标签都没有去除,当时也没有测试效果,很可能会把日本,韩文网页也当做中文页面了.最近学习solr/lucene,里面就带有language detection功能,可以使用两个库,一个是tika
2014-01-22 23:19:03 4767 1
原创 An Efficient Digital Search Algorithm by Using a Double-Array Structure笔记
双数组trie树实现的第一篇论文,日本人JUN-ICHI AOE 1989年撰写的.大概看完,简单记录下,可能有不准确的地方.trie树有静态和动态两种,静态的直接就是一个DFA,没什么好说的,使用内存什么都比较确定而且最少.动态的可以支持删除和插入,双数组做法就是一种实现.为了保证字典中所有词都不是其他词的前缀,在每个词后面加上#标识.双数组是指base和check这两个数组,bas
2014-01-20 19:15:47 1646
原创 solr使用的一点记录
对pubmed 3200多万篇,总计64G的医学文献摘要数据进行索引,索引了大约6个小时,索引之后发现还有18G,发现搜索是支持phrase query的,但是不需要高亮(因为文本数据不store在solr上而在cabinet上),text的定义中加上了termPositions=false,明天看看索引会不会小一点.
2014-01-20 18:54:59 1393
原创 空间索引技术(Spatial Index)
Lucene(contrib包)和mongodb中提供了一种空间索引,实际上就是对经纬度二维坐标进行编码之后仍使用trie树索引,对于检索一个点附近多少距离(比如5公里)之内的点,不需要遍历所有文档,只需要找grid点离该位置grid点5公里以内的所有文档就可以了.
2014-01-20 13:42:08 4874
原创 尝试更新了下suggest索引
suggest部分比较简单,只给出相应的PrefixQuery查询,拿出相应的条目,schema.xml中只有两个字段: id id对应更新的是主题词和对应影响因子的csv文件:curl http://192.168.1.21:8983/solr/suggest/update/csv?commit=true --data-binary @en_sug
2014-01-17 12:57:45 1314
转载 一个golang简介分享
同事做的分享,感觉golang做服务器高并发开发(带用户态go routine,应该是连接池一类的东西),应该挺合适的,函数式编程,编译什么又像java.http://slid.es/zhymin77/deck
2014-01-17 00:12:34 926
原创 Lucene中的highlighter
Lucence中的highlighter除了高亮关键词之外还有动态摘要的功能,动态摘要就是将文本分成若干片段(fragment),选取一个或多个与查询最相关(scorer计算)的片段.有的论文中选取段时是从查询词所在位置向左右扩充选取,并且据一般习惯用户更多注意一段话的起始部分,一般是从一个语句的开始超过一定长度可以抛弃后面的部分而不是前面.FastVectorHighlighter效率较高,
2014-01-16 22:12:15 2271
原创 文本分类的两种方法
一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.
2014-01-12 20:37:56 1439
转载 useragen判断是否客户端来自手机
http://hi.baidu.com/qcomdd/item/8745e72a860c0f14087508fb判断是否来自手机的方法:useragent包含Android或iPhone,Windows Phone,BlackBerry,Symbian
2014-01-09 11:20:27 1165
原创 自适应页面设计(Responsive Web Design)
阮一峰博客原文: http://www.ruanyifeng.com/blog/2012/05/responsive_web_design.html有个测试页面:http://mattkersley.com/responsive/
2014-01-06 12:37:03 1126
原创 Lucene中fieldNorm的精度问题
http://stackoverflow.com/questions/15135872/lucene-fieldnorm-discrepancy-between-similarity-calculation-and-query-time-value默认计算是state.getBoost() * ((float) (1.0 / Math.sqrt(numTerms))),index阶段计算是
2014-01-03 23:01:47 2332
原创 Lucene4.6中LogMergePolicy解析
a MergePolicy determines the sequence of primitive merge operations.Whenever the segments in an index have been altered by IndexWriter, either the addition of a newly flushed segment, addition of
2014-01-03 18:39:41 2788
Scons User Guide 2.01
2011-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人