2016年04月_passer199101

12月 11月 10月 09月 07月 06月 05月 04月 01月

原创 elasticsearch配置ik分词器

假定你已经安装了elasticsearch2.1.0和maven, 下面的步骤针对elasticsearch2.1.0有效, 其它版本可能不使用下载ik因为我的elasticsearch是2.1.0,所以去这里下载https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v1.6.1其它版本的elasticsearch对应的ik去

2016-04-29 14:11:26 1576

原创 elasticsearch的mapping设置

PUT /my_index{ "mappings": { "my_type": { "properties": { "title": { "type": "string", "index": "analyzed",

2016-04-29 14:10:22 2616

原创 es查询的时候控制相似度

详细内容https://www.elastic.co/guide/en/elasticsearch/guide/current/match-multi-word.html#match-precisionGET /nm*/_search{ "query": { "match": { "title": { "query" : "李小冉晒麻雀海报：国家利益高于一

2016-04-29 14:09:44 10128 2

原创 elasticsearch依据字段长度过滤

查询title字段的长度小于9的文档GET /nm*/_search{ "query": { "filtered": { "query": { "match": { "title": { "query": "黄晓明和杨颖结婚", "operator": "

2016-04-29 14:08:57 18867 3

原创 elasticsearch中给类型增加新字段

https://www.elastic.co/guide/en/elasticsearch/guide/current/_controlling_analysis.htmlFor instance, let’s add a new field to my_index:PUT /my_index/_mapping/my_type{ "my_type": { "properti

2016-04-29 14:07:43 24917

原创 elasticsearch查看type的mapping

使用以下方式查看elasticsearch中type的mappingGET /my_index/_mapping/my_type详情请参考https://www.elastic.co/guide/en/elasticsearch/guide/current/mapping-intro.html#_viewing_the_mapping

2016-04-29 14:06:56 22258 1

原创 scala eclipse建立scala maven项目

先建一个普通的maven项目, 然后在项目上右键,configure, Add Scala Nature.

2016-04-29 14:06:08 2982

原创 eclipse将默认字符集改为utf8

eclipse 中UTF-8设置 1.windows->Preferences 打开”首选项”对话框； 2.然后，general->Workspace，右侧Text file encoding，选择Other，改变为UTF-8。详细参考http://rebecca.iteye.com/blog/654953

2016-04-29 14:05:40 2169

原创 sun.misc.BASE64Encoder找不到jar包的解决方法

参考http://blog.csdn.net/jbxiaozi/article/details/7351768 只需要在project build path中先移除JRE System Library，再添加库JRE System Library，重新编译后就一切正常了。

2016-04-29 14:05:04 346

原创开源可视化网页抓取工具Portia 爬虫

http://v.youku.com/v_show/id_XNjkzNjkwODE2.html https://github.com/scrapinghub/portia

2016-04-29 14:04:29 10007

原创 couchbase根据id进行查询

select * from default use keys ['20160103144149313737'];

2016-04-29 14:03:49 2021

原创进入Couchbase命令行

bin/cbq --engine=http://couchbase:8093

2016-04-29 14:03:04 2167

原创 couchbase的limit的使用

select * from default limit 10 offset 5

2016-04-29 14:02:28 443

原创 IKAnalyzer中文分词

内容参考:http://lxw1234.com/archives/2015/07/422.htm lucene jar下载地址:http://120.52.73.79/central.maven.org/maven2/org/apache/lucene/lucene-core/3.6.0/lucene-core-3.6.0.jar

2016-04-29 14:01:34 322

原创 PageRank算法

详细内容参考http://blog.csdn.net/Leonis_v/article/details/50531032PageRank算法原理PageRank的计算充分利用了两个假设：数量假设和质量假设。步骤如下： 1）在初始阶段：网页通过链接关系构建起Web图，每个页面设置相同的PageRank值，通过若干轮的计算，会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行，网页当前的

2016-04-29 14:00:57 307

原创 BloomFilter

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。详细内容: http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloom Filter的实现(java版本): https://github.com/ma

2016-04-29 14:00:31 330

原创倒排索引

http://es.xiaoleilu.com/052_Mapping_Analysis/35_Inverted_index.html

2016-04-29 14:00:01 281

原创余弦相似性算法

余弦相似性算法的具体介绍参考:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html下面是我根据上边的介绍进行的java语言的实现:import java.io.IOException;import java.io.StringReader;import java.util.Collections;import java.ut

2016-04-29 13:58:22 703

原创 simhash算法介绍和实现

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是package cn.allydata.util;import java.io.IOException;import java.io.StringReader;import ja

2016-04-29 13:47:01 1784

原创 Left padding a String with Zeros

http://stackoverflow.com/questions/4469717/left-padding-a-string-with-zeros将数字格式化为10位,如果数字的长度不够10, 在数字的左边补0.String.format("%010d", Integer.parseInt(mystring));

2016-04-29 13:45:17 378

hadoop2 文件读写原理

这个文档讲述了hadoop2的文件读写原理,不过是英文的,英文不好的同学下载的时候,要谨慎了

2015-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人