自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

www.hohode.com

欢迎访问新的博客地址 www.hohode.com

  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 elasticsearch配置ik分词器

假定你已经安装了elasticsearch2.1.0和maven, 下面的步骤针对elasticsearch2.1.0有效, 其它版本可能不使用下载ik因为我的elasticsearch是2.1.0,所以去这里下载https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v1.6.1其它版本的elasticsearch对应的ik去

2016-04-29 14:11:26 1576

原创 elasticsearch的mapping设置

PUT /my_index{ "mappings": { "my_type": { "properties": { "title": { "type": "string", "index": "analyzed",

2016-04-29 14:10:22 2616

原创 es查询的时候控制相似度

详细内容https://www.elastic.co/guide/en/elasticsearch/guide/current/match-multi-word.html#match-precisionGET /nm*/_search{ "query": { "match": { "title": { "query" : "李小冉晒麻雀海报:国家利益高于一

2016-04-29 14:09:44 10128 2

原创 elasticsearch依据字段长度过滤

查询title字段的长度小于9的文档GET /nm*/_search{ "query": { "filtered": { "query": { "match": { "title": { "query": "黄晓明和杨颖结婚", "operator": "

2016-04-29 14:08:57 18867 3

原创 elasticsearch中给类型增加新字段

https://www.elastic.co/guide/en/elasticsearch/guide/current/_controlling_analysis.htmlFor instance, let’s add a new field to my_index:PUT /my_index/_mapping/my_type{ "my_type": { "properti

2016-04-29 14:07:43 24917

原创 elasticsearch查看type的mapping

使用以下方式查看elasticsearch中type的mappingGET /my_index/_mapping/my_type详情请参考https://www.elastic.co/guide/en/elasticsearch/guide/current/mapping-intro.html#_viewing_the_mapping

2016-04-29 14:06:56 22258 1

原创 scala eclipse建立scala maven项目

先建一个普通的maven项目, 然后在项目上右键,configure, Add Scala Nature.

2016-04-29 14:06:08 2982

原创 eclipse将默认字符集改为utf8

eclipse 中UTF-8设置 1.windows->Preferences 打开”首选项”对话框; 2.然后,general->Workspace,右 侧Text file encoding,选择Other,改变为UTF-8。 详细参考http://rebecca.iteye.com/blog/654953

2016-04-29 14:05:40 2169

原创 sun.misc.BASE64Encoder找不到jar包的解决方法

参考http://blog.csdn.net/jbxiaozi/article/details/7351768 只需要在project build path中先移除JRE System Library,再添加库JRE System Library,重新编译后就一切正常了。

2016-04-29 14:05:04 346

原创 开源可视化网页抓取工具Portia 爬虫

http://v.youku.com/v_show/id_XNjkzNjkwODE2.html https://github.com/scrapinghub/portia

2016-04-29 14:04:29 10007

原创 couchbase根据id进行查询

select * from default use keys ['20160103144149313737'];

2016-04-29 14:03:49 2021

原创 进入Couchbase命令行

bin/cbq --engine=http://couchbase:8093

2016-04-29 14:03:04 2167

原创 couchbase的limit的使用

select * from default limit 10 offset 5

2016-04-29 14:02:28 443

原创 IKAnalyzer中文分词

内容参考:http://lxw1234.com/archives/2015/07/422.htm lucene jar下载地址:http://120.52.73.79/central.maven.org/maven2/org/apache/lucene/lucene-core/3.6.0/lucene-core-3.6.0.jar

2016-04-29 14:01:34 322

原创 PageRank算法

详细内容参考http://blog.csdn.net/Leonis_v/article/details/50531032PageRank算法原理PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下: 1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的

2016-04-29 14:00:57 307

原创 BloomFilter

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。详细内容: http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloom Filter的实现(java版本): https://github.com/ma

2016-04-29 14:00:31 330

原创 倒排索引

http://es.xiaoleilu.com/052_Mapping_Analysis/35_Inverted_index.html

2016-04-29 14:00:01 281

原创 余弦相似性算法

余弦相似性算法的具体介绍参考:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html下面是我根据上边的介绍进行的java语言的实现:import java.io.IOException;import java.io.StringReader;import java.util.Collections;import java.ut

2016-04-29 13:58:22 703

原创 simhash算法介绍和实现

simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是package cn.allydata.util;import java.io.IOException;import java.io.StringReader;import ja

2016-04-29 13:47:01 1784

原创 Left padding a String with Zeros

http://stackoverflow.com/questions/4469717/left-padding-a-string-with-zeros将数字格式化为10位,如果数字的长度不够10, 在数字的左边补0.String.format("%010d", Integer.parseInt(mystring));

2016-04-29 13:45:17 378

hadoop2 文件读写原理

这个文档讲述了hadoop2的文件读写原理,不过是英文的,英文不好的同学下载的时候,要谨慎了

2015-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除