- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 elasticsearch配置ik分词器
假定你已经安装了elasticsearch2.1.0和maven, 下面的步骤针对elasticsearch2.1.0有效, 其它版本可能不使用下载ik因为我的elasticsearch是2.1.0,所以去这里下载https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v1.6.1其它版本的elasticsearch对应的ik去
2016-04-29 14:11:26 1576
原创 elasticsearch的mapping设置
PUT /my_index{ "mappings": { "my_type": { "properties": { "title": { "type": "string", "index": "analyzed",
2016-04-29 14:10:22 2616
原创 es查询的时候控制相似度
详细内容https://www.elastic.co/guide/en/elasticsearch/guide/current/match-multi-word.html#match-precisionGET /nm*/_search{ "query": { "match": { "title": { "query" : "李小冉晒麻雀海报:国家利益高于一
2016-04-29 14:09:44 10128 2
原创 elasticsearch依据字段长度过滤
查询title字段的长度小于9的文档GET /nm*/_search{ "query": { "filtered": { "query": { "match": { "title": { "query": "黄晓明和杨颖结婚", "operator": "
2016-04-29 14:08:57 18867 3
原创 elasticsearch中给类型增加新字段
https://www.elastic.co/guide/en/elasticsearch/guide/current/_controlling_analysis.htmlFor instance, let’s add a new field to my_index:PUT /my_index/_mapping/my_type{ "my_type": { "properti
2016-04-29 14:07:43 24917
原创 elasticsearch查看type的mapping
使用以下方式查看elasticsearch中type的mappingGET /my_index/_mapping/my_type详情请参考https://www.elastic.co/guide/en/elasticsearch/guide/current/mapping-intro.html#_viewing_the_mapping
2016-04-29 14:06:56 22258 1
原创 scala eclipse建立scala maven项目
先建一个普通的maven项目, 然后在项目上右键,configure, Add Scala Nature.
2016-04-29 14:06:08 2982
原创 eclipse将默认字符集改为utf8
eclipse 中UTF-8设置 1.windows->Preferences 打开”首选项”对话框; 2.然后,general->Workspace,右 侧Text file encoding,选择Other,改变为UTF-8。 详细参考http://rebecca.iteye.com/blog/654953
2016-04-29 14:05:40 2169
原创 sun.misc.BASE64Encoder找不到jar包的解决方法
参考http://blog.csdn.net/jbxiaozi/article/details/7351768 只需要在project build path中先移除JRE System Library,再添加库JRE System Library,重新编译后就一切正常了。
2016-04-29 14:05:04 346
原创 开源可视化网页抓取工具Portia 爬虫
http://v.youku.com/v_show/id_XNjkzNjkwODE2.html https://github.com/scrapinghub/portia
2016-04-29 14:04:29 10007
原创 couchbase根据id进行查询
select * from default use keys ['20160103144149313737'];
2016-04-29 14:03:49 2021
原创 IKAnalyzer中文分词
内容参考:http://lxw1234.com/archives/2015/07/422.htm lucene jar下载地址:http://120.52.73.79/central.maven.org/maven2/org/apache/lucene/lucene-core/3.6.0/lucene-core-3.6.0.jar
2016-04-29 14:01:34 322
原创 PageRank算法
详细内容参考http://blog.csdn.net/Leonis_v/article/details/50531032PageRank算法原理PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下: 1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的
2016-04-29 14:00:57 307
原创 BloomFilter
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。详细内容: http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.htmlBloom Filter的实现(java版本): https://github.com/ma
2016-04-29 14:00:31 330
原创 余弦相似性算法
余弦相似性算法的具体介绍参考:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html下面是我根据上边的介绍进行的java语言的实现:import java.io.IOException;import java.io.StringReader;import java.util.Collections;import java.ut
2016-04-29 13:58:22 703
原创 simhash算法介绍和实现
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是package cn.allydata.util;import java.io.IOException;import java.io.StringReader;import ja
2016-04-29 13:47:01 1784
原创 Left padding a String with Zeros
http://stackoverflow.com/questions/4469717/left-padding-a-string-with-zeros将数字格式化为10位,如果数字的长度不够10, 在数字的左边补0.String.format("%010d", Integer.parseInt(mystring));
2016-04-29 13:45:17 378
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人