- 博客(239)
- 资源 (32)
- 收藏
- 关注
原创 MapReduce编程(五) 单表关联
MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。
2017-03-31 17:41:00 3375
原创 MapReduce编程(三) 排序
MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下
2017-03-31 11:10:34 5530 1
原创 MapReduce编程(二) 文件合并和去重
MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。
2017-03-30 23:59:27 11063
原创 MapReduce编程(一) Intellij Idea配置MapReduce编程环境
介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。
2017-03-30 20:37:22 28483 7
原创 Intellij Idea编译Elasticsearch源码
如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。
2017-03-27 20:06:28 9305 1
原创 TF-IDF词项权重计算
一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要.词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t))W(t,d):the weight of the term in document d tf
2017-03-23 21:46:51 5297 3
原创 ELK日志处理之使用Grok解析日志
介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。
2017-03-17 13:26:24 25668
原创 图解Elasticsearch中的_source、_all、store和index属性
Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解和代码测试进行解析。
2017-03-15 20:29:26 49389 17
原创 ELK日志处理之使用logstash收集log4J日志
介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。
2017-03-11 00:29:52 32733 19
原创 Elasticsearch Java API(十一)--聚合(aggregations)
Elasticsearch分析聚合介绍了分析聚合的REST命令,这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。二、需求查询title中包含关键字”程序”的文档,统计查询按编程语言分组,统计每组的文档数量。三、REST命令行REST命令行如下,有三部分,query查询所有title中包含关键词程序的文档,size指定返回结果中文
2017-02-21 12:15:29 14995 2
原创 Lucene 6.0 提取新闻关键词Top-N
一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码中实现的思路是使用IndexReader的getTermVector获取文档的某一个字段的Terms,
2017-01-11 19:47:00 7733 2
原创 [大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程
一机器环境二配置SSH免密码登录三安装Hadoop 2731下载Hadoop2运行Hadoop单机模式3 Hadoop伪分布式模式31修改hadoop-envsh32修改core-sitexml33修改mapred-sitexmltemplate34修改hdfs-sitexml4启动hadoop41格式化hdfs42启动Hadoop四安装Hbase 1241 Hbase下
2017-01-06 14:37:11 16387 4
原创 从0开始搭建SVN服务器
机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。一、SVN服务器配置1.1下载与安装到VISUALSVN SERVER官网下载SVN服务器安装包,下载地址:https://www.visualsvn.com/server/download/下载后一路下一步,之后启
2017-01-01 17:00:52 5605 11
原创 Elasticsearch 5.1.1搜索高亮及Java API实现
5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始,采用简写的代码风格,也就是Sence插件或者kibana的dev tools中采用的风格。(温馨提示:安装kibana 5.1.1,在dev tools中直接可以使用简单格式命令。)一、创建索引文档结
2016-12-28 17:39:01 21629 16
原创 Elasticsearch 5 Ik+pinyin分词配置详解
一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK分词器下载与安装关于IK分词器的介绍不再多少,
2016-12-28 13:57:15 31261 14
原创 Elasticsearch 5.1.1 head插件安装指南
Elasticsearch 5.1.1 head插件安装指南一、下载安装包下载Elasticsearch 5.1.1下载地址:https://www.elastic.co/downloads/elasticsearchzip和tar格式是各种系统都通用的,解压之后启动Elasticsearch即可。下载elasticsearch-head下载地址:https://github.com/mobz/el
2016-12-27 16:05:33 32830 18
原创 Elasticsearch 5.X下JAVA API使用指南
Elasticsearch 5.0下Java API使用指南一.2.X到5.XElasticsearch 2.x使用java api把elasticsearch安装包下的lib文件夹下的jar文件全部加入到工程类路径即可,换到5.x就不适用了.创建Clien的代码:Settings settings = Settings.builder().put("cluster.name", "elastics
2016-12-12 11:45:06 47862 50
原创 Elasticsearch分析聚合
Elasticsearch不仅仅适合做全文检索,分析聚合功能也很好用。下面通过实例来学习。一、准备数据{"index":{ "_index": "books", "_type": "IT", "_id": "1" }}{"id":"1","title":"Java编程思想","language":"java","author":"Bruce Eckel","price":70.20,"year":
2016-12-06 11:15:46 12462
原创 远程文件拷贝命令scp的用法
scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个:拷贝本机文件到远程服务器拷贝远程服务器上的文件到本地它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li
2016-11-25 14:20:34 2001
原创 导入Logstash日志到Elasticsearch
导入logstash日志到Elasticsearch一、logstash是什么?Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。当然它可以单独出现,作为日志收集软件,你可以收集日志到多种存储系统或临时中转系统,如MySQL,redis,kakfa,HDFS, lucene,s
2016-11-22 10:21:24 15886
原创 大数据基础之常用Linux命令
大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname进入多级文件夹:cd /usr/local/Cellar返回上层目录:cd ../返回上层的上层:cd ../../回到主文件夹cd2.ls命令ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情。 不带参数运行ls会列出文件和目录ls使用-l参
2016-11-20 18:03:09 6008
原创 解决linux下root运行Elasticsearch异常
在CentOS 6.5 上运行Elasticsearch 2.3,异常如下:Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. at org.elasticsearch.bootstrap.Bootstrap.initializeNatives(Bootstr
2016-11-20 02:39:32 20491 4
原创 Elasticsearch java client 获取mapping
通过java客户端获取mapping:package elasticsearch.in.action.client;import java.net.InetAddress;import java.net.UnknownHostException;import org.elasticsearch.client.transport.TransportClient;import org.elastic
2016-11-15 22:50:27 8058 1
原创 Lucene 6.0中BooleanQuery
Lucene 6.0中BooleanQuery创建和之前的不太一样,4.3版本的创建BooleanQuery:BooleanQuery bQuery=new BooleanQuery(); bQuery.add(new TermQuery(new Term("title", "lucene")), Occur.MUST); bQuery.add(new
2016-11-08 00:41:35 4611
原创 lucene索引的删除和更新
Lucene索引的删除和更新删除和更新和新增一样,也是通过IndexWriter 对象来操作的,IndexWrite对象的deleteDocuments ()方法用于实现索引的删除,updateDocument()方法用于实现索引的更新。删除Lucene索引删除索引的代码如下,该示例实现了根据Term来删除单个或多个Document,删除title中包含关键词“美国”的文档:import java.
2016-11-07 23:09:21 10526 1
原创 Elasticsearch Java API(十)--Multi Get API
使用multi get API可以通过索引名、类型名、文档id一次得到一个文档集合,文档可以来自同一个索引库,也可以来自不同索引库。示例如下:MultiGetResponse multiGetItemResponses = client.prepareMultiGet() .add("twitter", "tweet", "1") //注释1
2016-10-16 16:03:13 3725 3
原创 [搜索]Lucene仿百度文库文件检索系统
一、准备文件2016中国人工智能大会 顶尖专家齐聚.pptx2016中国人工智能大会 大咖云集探讨人工智能.doc2016中国人工智能大会在京召开.docxJavaScript闭包详解.docx如何使用JSON.doc中国人工智能大会CCAI 2016圆满落幕.pdf中科院副院长:人工智能 找风口不如找关口.txt二、搜索框三、搜索结果页声明: 本博客拒绝转载!
2016-10-01 10:24:21 3842 10
原创 Elasticsearch索引管理
1.判断索引是否存在IndicesExistsResponse indexResponse = ia.client.admin().indices().prepareExists("blog").execute().actionGet();System.out.println(indexResponse.isExists());也可以同时判断多个索引是否存在:IndicesExistsRespon
2016-08-24 09:18:23 4428 2
原创 搭建Elasticsearch 5.4分布式集群
一、集群角色多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。Zen发现是ES自带的默认发现机制,使用多播发现其它节点。只要启动一个新的ES节点并设置和集群相同的名称这个节点就会被加入到集群中。Elasticsearch集群中有的节点一般有三种角色:master node、data node和clien
2016-08-14 07:18:18 53714 13
原创 Elasticsearch shield权限管理详解
ElasticSearch本身没有权限管理模块,只要获取服务器的地址和端口,任何人都可以随意读写ElasticSearch的API并获取数据,这样非常不安全。如果获取了ES的访问IP和端口,一条命令就可以删除整个索引库。好在Elastic公司开发了安全插件shield来解决权限管理问题. https://www.elastic.co/products/shield 一、shield安装...
2016-08-13 21:06:16 29763 18
原创 Elasticsearch Java API(九)--删除文档的field以及field的属性
一、需求项目中需要实现删除文档的一个field以及删除指定field的一个属性. 以文档test/document/1为例:{ "_index": "test", "_type": "document", "_id": "1", "_score": 1, "_source": { "class": "com.test.data",
2016-08-04 16:00:09 10288 5
原创 Elasticsearch Java API(八)--搜索有相同父id的子文档
需求:搜索具有相同父id的所有子文档.数据: mapping: { "mappings": { "branch": {}, "employee": { "_parent": { "type": "branch" } } } }
2016-08-04 13:40:50 7167 2
原创 Elasticsearch Java API(七)--多级嵌套搜索
要在java中实现一个有三级父子关系的嵌套搜索,相关资料很少,发在stackoverflow上以后一个Switzerland的大神很快回复了我,google+stackoverflow很好使。对应的命令行query:{ "query": { "has_child": { "type": "instance", "query": {
2016-07-29 04:44:53 15615 11
原创 Elasticsearch Java Api(六)--DeleteByQuery
参考stackoverflow上的帖子,总结DeleteByQuery的java api
2016-07-26 19:06:19 13220 4
原创 Elasticsearch索引的父子关系(index parent-child)
Elasticsearch允许给文档建立父子关系,这篇博客介绍文档的父子关系是如何映射的、如何索引父子文档、如何通过子文档查询父文档 、如何通过父文档查询子文档.
2016-07-26 14:17:19 25523 7
原创 Elasticsearch索引mapping的写入、查看与修改
mapping的写入与查看首先创建一个索引:curl -XPOST "http://127.0.0.1:9200/productindex"{"acknowledged":true} 现在只创建了一个索引,并没有设置mapping,查看一下索引mapping的内容:curl -XGET "http://127.0.0.1:9200/productindex/_mapping?pretty" {
2016-07-24 09:32:55 138731 3
原创 Elasticsearch内存分配设置
编辑:elasticsearch-2.3.3/bin/ elasticsearch 加上:export ES_HEAP_SIZE=10g或者启动的时候设置参数,确保Xmx和Xms大小相等:./bin/elasticsearch -Xmx10g -Xms10g官网说明: https://www.elastic.co/guide/en/elasticsearch/guide/current/heap
2016-07-23 07:53:28 21368 3
Elasticsearch 5.1.1 java api maven工程 源码下载
2017-04-18
druid-1.0.16.jar
2016-10-29
集体智慧编程中文版
2015-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人