2014年01月_jollyjumper

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创决策树(Decision Tree)模型笔记

以前看集体智慧编程时觉得决策树模型没什么大不了的,看得不仔细.昨天知道网页正文抽取(full-text extraction)中对boilerplate和content块的判断就是使用该模型,终于有点直观了,复习一下吧.集体智慧编程中以预测用户是否选择付费,付费是basic还是premium的分类问题为例讲解.决策树每一步分支都采用贪心策略,熵(entropy)或基尼不纯度(gini im

2014-01-25 17:12:58 7168

转载验证码识别image/pdf to string 开源工具

http://code.google.com/p/tesseract-ocr/ 同事的分享,这个图片识别率还是比较高。破火车站的识别很简单。还有中文类库。具体的分类方法还没研究哈.

2014-01-24 23:42:32 1297

原创 Boilerplate Detection Using Shallow Text Features论文小笔记

网页正文抽取是个很重要的东西,可以减少索引大小,让搜索结果更准确,数据挖掘也更准确.昨天晚上在网上看到这个东西:http://code.google.com/p/boilerpipe/很高兴,用于抽取网页上的正文,它还有一个gae的页面:http://boilerpipe-web.appspot.com,测了一下准确率,召回率都还没蛮高的.最关键的一点是:几年前在一家小公司我也做过

2014-01-24 23:39:15 1840

原创朴素贝叶斯经典案例:语言识别(language detection)

我对语言识别的问题一直很感兴趣,记得10年做全网爬虫时同事写了一个简单的网页语言检测,比较简单,只是判断unicode code point是否有足够数量落在中文的code point上,连基本的html标签都没有去除,当时也没有测试效果,很可能会把日本,韩文网页也当做中文页面了.最近学习solr/lucene,里面就带有language detection功能,可以使用两个库,一个是tika

2014-01-22 23:19:03 4767 1

原创 An Efficient Digital Search Algorithm by Using a Double-Array Structure笔记

双数组trie树实现的第一篇论文,日本人JUN-ICHI AOE 1989年撰写的.大概看完,简单记录下,可能有不准确的地方.trie树有静态和动态两种,静态的直接就是一个DFA,没什么好说的,使用内存什么都比较确定而且最少.动态的可以支持删除和插入,双数组做法就是一种实现.为了保证字典中所有词都不是其他词的前缀,在每个词后面加上#标识.双数组是指base和check这两个数组,bas

2014-01-20 19:15:47 1646

原创 solr使用的一点记录

对pubmed 3200多万篇,总计64G的医学文献摘要数据进行索引,索引了大约6个小时,索引之后发现还有18G,发现搜索是支持phrase query的,但是不需要高亮(因为文本数据不store在solr上而在cabinet上),text的定义中加上了termPositions=false,明天看看索引会不会小一点.

2014-01-20 18:54:59 1393

原创空间索引技术(Spatial Index)

Lucene(contrib包)和mongodb中提供了一种空间索引,实际上就是对经纬度二维坐标进行编码之后仍使用trie树索引,对于检索一个点附近多少距离(比如5公里)之内的点,不需要遍历所有文档,只需要找grid点离该位置grid点5公里以内的所有文档就可以了.

2014-01-20 13:42:08 4874

原创尝试更新了下suggest索引

suggest部分比较简单,只给出相应的PrefixQuery查询,拿出相应的条目,schema.xml中只有两个字段: id id对应更新的是主题词和对应影响因子的csv文件:curl http://192.168.1.21:8983/solr/suggest/update/csv?commit=true --data-binary @en_sug

2014-01-17 12:57:45 1314

转载一个golang简介分享

同事做的分享,感觉golang做服务器高并发开发(带用户态go routine,应该是连接池一类的东西),应该挺合适的,函数式编程,编译什么又像java.http://slid.es/zhymin77/deck

2014-01-17 00:12:34 926

原创 Lucene中的highlighter

Lucence中的highlighter除了高亮关键词之外还有动态摘要的功能,动态摘要就是将文本分成若干片段(fragment),选取一个或多个与查询最相关(scorer计算)的片段.有的论文中选取段时是从查询词所在位置向左右扩充选取,并且据一般习惯用户更多注意一段话的起始部分,一般是从一个语句的开始超过一定长度可以抛弃后面的部分而不是前面.FastVectorHighlighter效率较高,

2014-01-16 22:12:15 2271

原创文本分类的两种方法

一种方法是使用朴素贝叶斯方法(更高级可以用费舍尔方法),但是特征需要自己提取,如果只是看其中关键词,似乎还用不上词频,另一种可以使用文本的term vector(也可以是其他特征向量),先把不同分类的特征向量计算出来(可以直接累加),然后计算向量夹角,看离哪个更近或者确定阈值即可判断,这种方法在确定文档相似性时经常用到.

2014-01-12 20:37:56 1439

转载 Php框架选型

同事做的一个presentation,讲得很简洁http://slid.es/ixiongdi/php

2014-01-10 15:17:01 900

转载 useragen判断是否客户端来自手机

http://hi.baidu.com/qcomdd/item/8745e72a860c0f14087508fb判断是否来自手机的方法:useragent包含Android或iPhone,Windows Phone,BlackBerry,Symbian

2014-01-09 11:20:27 1165

原创自适应页面设计(Responsive Web Design)

阮一峰博客原文: http://www.ruanyifeng.com/blog/2012/05/responsive_web_design.html有个测试页面:http://mattkersley.com/responsive/

2014-01-06 12:37:03 1126

原创 Lucene中fieldNorm的精度问题

http://stackoverflow.com/questions/15135872/lucene-fieldnorm-discrepancy-between-similarity-calculation-and-query-time-value默认计算是state.getBoost() * ((float) (1.0 / Math.sqrt(numTerms))),index阶段计算是

2014-01-03 23:01:47 2332

原创 Lucene4.6中LogMergePolicy解析

a MergePolicy determines the sequence of primitive merge operations.Whenever the segments in an index have been altered by IndexWriter, either the addition of a newly flushed segment, addition of

2014-01-03 18:39:41 2788

Scons User Guide 2.01

Scons号称下一代自动编译工具，相比于make,它的生成脚本使用Python而不像makefile那样新创造一种语言。我认为它是autoconfig,makefile的很好替代。

2011-05-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人