- 博客(18)
- 资源 (3)
- 收藏
- 关注
原创 Kafka->Mongodb->Es
实现了将Kafka中的数据推送给Mongodb,然后再将Mongodb中的数据推送给Es的过程。数据来源是来自txt文档中的180万条数据。准备工作:1)在Mongdb集群上创建一个数据库mydb,并创建一个空的Collection,命名为netflows @SuppressWarnings("deprecation") Mongo mongo = new Mongo("1
2015-08-31 19:35:54 1465
转载 zookeeper集群环境的搭建
我安装zookeeper的集群是用到了五个节点:分别是slave1,slav2,slave3。也就是说要在这五个节点上部署zookeeper。这里需要注意一点:zookeeper集群的节点数必须是奇数,并且至少为3个。这里涉及到zookeeper的选举算法。1、首先肯定是从官网下载相应的tar包,并解压 网址:http://zookeeper.apache.org/release
2015-08-24 09:06:42 1212
原创 将hadoop安装文件放置到了非hadoop用户授权的目录下的系列坑之一
环境描述:搭建了一个4台机器的hadoop集群环境,分别创建了用户hadoop1。1)首先解决了的问问题是实现master与其余三个slave的ssh无密码通信问题。2)安装hadoop的环境遇见下列问题:首先:在master上用scp命令向其余的slave拷贝hadoop-2.6.0目录时候,还让输入slave的密码,咋回事呢?原因:我是将hadoop-2.6.0放在了/home
2015-08-21 17:35:48 1816
转载 Spark Streaming小结
Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算
2015-08-20 08:40:50 421
转载 Spark Streaming:大规模流式数据处理的新贵
摘要:Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分
2015-08-20 08:37:28 534
原创 Spark之WordCount
配置好了Spark的集群环境,尝试弄个WordCount的例子,下面是具体的例子代码(javaAPI实现)package com.test;import java.util.Arrays;import java.util.List;import java.util.regex.Pattern;import org.apache.spark.SparkConf;import org.ap
2015-08-19 08:48:27 391
原创 Spark集群环境的搭建
一、Scala环境的配置1)登录scala的官网下载scala-2.10.5.tgz2)将scala-2.10.5.tgz拷贝到master的/home/bms目录下3)在/home/bms目录下解压scala-2.10.5.tgz。命令是:tar -zxvf scala-2.10.5.tgz4)编辑master的/etc/profile文件,在其中添加如下两行配置expo
2015-08-18 16:47:50 480
原创 如何不再使用CTRL+C关闭Elasticsearch
使用CTRL+C来关闭服务总是感觉不咋样,暴力又不文雅,后来发现github已经帮忙解决了这个问题。 操作方法如下:1.到https://github.com/elasticsearch/elasticsearch-servicewrapper下载service文件夹,放到es的bin目录下。下面是命令集合:bin/service/elasticsearch +console 在前
2015-08-15 09:42:21 2281
转载 Elasticsearch与MongoDB 数据同步及分布式集群搭建 (一)
Elasticsearch通过River可以与多种数据源Wikipedia, MongoDB, CouchDB, RabbitMQ, RSS, Sofa, JDBC, FileSystem,Dropbox等同步,公司的业务是用 MongoDB,今天测试环境虚拟机上配置了一下Elasticsearch 与 MongoDB的同步,作个大概的过程记录,主要利用richardwilly98 / ela
2015-08-14 17:39:36 535
原创 Java代码查存es的简单代码
public static void main(String[] args) { Client client = new TransportClient() .addTransportAddress(new InetSocketTransportAddress("192.168.100.103", 9300)); IndexResponse response = nul
2015-08-14 10:06:06 2379
转载 Elasticsearch集群环境的搭建步骤
一、环境介绍与安装准备 1、环境说明 2台虚拟机,OS为ubuntu13.04,ip分别为xxx.xxx.xxx.140和xxx.xxx.xxx.145。 2、安装准备 ElasticSearch(简称ES)由java语言实现,运行环境依赖java。ES 1.x版本,官方推荐至少使用jdk1.6的环境,建议使用orac
2015-08-11 19:57:17 647
转载 Mongodb的索引的实现算法---B-tree/B+tree/B*tree
B~树 1.前言:动态查找树主要有:二叉查找树(Binary Search Tree),平衡二叉查找树(Balanced Binary Search Tree),红黑树 (Red-Black Tree ),B-tree/B+-tree/ B*-tree (B~Tree)。前三者是典型的二叉查找树结构,其查找的时间复杂度O(log2N)与树的深度相关,那么
2015-08-08 10:33:35 5670
转载 MongoDB集群——分片
1、分片的结构及原理分片集群结构分布: 分片集群主要由三种组件组成:mongos,config server,shard1)MONGOS数据库集群请求的入口,所有的请求都通过mongos进行协调,不需要在应用程序添加一个路由选择器,mongos自己就是一个请求分发中心,它负责把对应的数据请求请求转发到对应的shard服务器上。在生产环境通常有多个mong
2015-08-06 08:50:14 462
原创 Mongodb与Elasticsearch配合使用进一步研究(二)
有一个问题:Mongodb与Elasticsearch通过River连接起来之后,想通过Elasticsearch查询存储在Mongodb上面的一段时间内的数据。 解决方案一:开始想在Mongodb中存入时间类型(Date),然后通过Elasticsearch进行检索一段时间内的信息,但是问题出现了,存入Mongdb内的数据总是和当前时间总是差8个小时。后来发现 jvm里面的时区和M
2015-08-05 10:50:05 2317
原创 MongoDB与Elasticsearch的进一步研究(一)
今天遇见的的一个问题是:通过elasticsearch建立了索引(myindex),当mongodb对应的集合中增加数据的时候,能在elasticsearch中查询到。但是,当mongodb中删除数据的时候,elasticsearch确没有相应的变动,也就是说数据没有达到同步。 首先看下我开始创索引的命令: 1 2 3 4 5 6 7
2015-08-04 17:34:04 476
原创 MongoDB与Elasticsearch达到数据同步的一点尝试
1.首先要搭建MongoDB的集群环境(可以参考的个人博客:http://blog.csdn.net/xuguokun1986) 2.比较关键的一点是安装MongoDB和Elasticsear向关联的一个插件,插件的安装方法是(操作目录是集群环境 的master节点的/home/bms/mongodb-3.0.5/bin目录): ./plugin -
2015-08-01 14:29:43 1344
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人