2017年12月_浅汐王

原创 Spark Streaming中如何实现Exactly-Once

Exactly-once 语义是实时计算的难点之一。要做到每一条记录只会被处理一次，即使服务器或网络发生故障时也能保证没有遗漏，这不仅需要实时计算框架本身的支持，还对上游的消息系统、下游的数据存储有所要求。此外，我们在编写计算流程时也需要遵循一定规范，才能真正实现 Exactly-once。本文将讲述如何结合 Spark Streaming 框架、Kafka 消息系统、以及 MySQL 数据库来实

2017-12-17 19:34:31 1469

原创 hive性能调优

1. 使用EXPLAIN通过EXPLAIN功能，可以帮助我们了解如何将查询转化成MapReduce任务的。 1、使用explain查看hive如何将查询转化成MapReduce任务的1.1 创建表create table onecol(number int)1.2 初始化数据并加载[hadoop@mycluster ~]$ v

2017-12-15 14:41:55 582

原创 Structured Streaming

Spark2.0新增了Structured Streaming，它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。Structured Streaming顾名思义，它将数据源和计算结果都映射成一张”结构化”的表，在计算的时候以结构化的方式去操作数据流，大大方便和提高了数据开发的效率。Spark2

2017-12-12 15:20:08 529

原创 HiveServer2的HA

在生产环境中使用Hive，强烈建议使用HiveServer2来提供服务，好处很多：1. 在应用端不用部署Hadoop和Hive客户端；2. 相比hive-cli方式，HiveServer2不用直接将HDFS和Metastore暴漏给用户；3. 有安全认证机制，并且支持自定义权限校验；4. 有HA机制，解决应用端的并发和负载均衡问题；5. JDBC方式，可以使用任何语言，

2017-12-12 14:50:55 461

原创 Centos6.5 (64位) 搭建FTP服务器

1. 在root权限下，通过如下命令安装Vsftp。# yum install vsftpd2. 在启动vsftpd服务之前，需要登录云服务器修改配置文件，将匿名登录禁用掉。打开配置文件，命令如下：# vim /etc/vsftpd/vsftpd.conf在配置文件中第11行的“anonymous_enable=YES”改为“anonymous_enable=NO”，即将匿名登

2017-12-11 20:36:00 174

原创 log4j输出日志到flume

Log4JAppender和LoadBalancingLog4jAppender可以将应用服务器的日志通过AvroSource实时的把日志传输到日志服务器，然后在传输到监控系统或者是HDFS中存储，FLume的Log4JAppender和LoadBalancingLog4jAppender必须使用Log4j的异步加载器，否则日志服务器down机，将会导致应用服务器异常，影响线上环境的使用。应

2017-12-11 20:35:50 198

原创 flume串联的简单使用

agent1: exec + memory + avro#gent的名称为"a1" a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = execa1.sources.r1.command = tail -F/opt/data/data.loga1.source

2017-12-11 20:35:29 570

原创 log4j输出日志到flume

Log4JAppender和LoadBalancingLog4jAppender可以将应用服务器的日志通过AvroSource实时的把日志传输到日志服务器，然后在传输到监控系统或者是HDFS中存储，FLume的Log4JAppender和LoadBalancingLog4jAppender必须使用Log4j的异步加载器，否则日志服务器down机，将会导致应用服务器异常，影响线上环境的使用。应

2017-12-11 19:36:08 236

转载 kafka使用high api如何确保不丢失消息，不重复发送，消息只读取一次

首先说明，Kafka 的设计就是 at-least-once 的那么，如何确保非极端环境下，Kafka 不丢数据，以及 Kafka 集群尽可能稳定呢？Producer 端设置 ack 为 all（或者说尽可能越多越好，但实际生产里集群实例过多，这样设置会影响性能，因此根据具体情况来定），即确保所有 replication 都拿到数据的时候，send 方法才得以返回，以此来判断数据

2017-12-10 22:00:23 1909

原创 HDFS数据副本存放策略

1.副本放置策略第一副本：放置在上传文件的DataNode上;如果是集群外提交，则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本：放置在于第一个副本不同的机架的节点上;第三副本：与第二个副本相同机架的不同节点上;如果还有更多的副本：随机放在节点中;HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副

2017-12-10 17:54:30 3627

原创 SparkStreaming之foreachRDD

DStream中的foreachRDD是一个非常强大函数，它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。所以要掌握它，对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的object（eg:根据TCP协议连接到远程的服务器，我们连接外部数据库需要自己的句柄）和发送数据到远程的系统为此，开发者

2017-12-08 15:25:22 288

原创 elk的安装使用（二）

错误1:[2017-11-25T13:58:31,795][ERROR][o.e.b.Bootstrap ] [node131] node validation exception[4] bootstrap checks failed[1]: max file descriptors [4096] for elasticsearch process is too lo

2017-12-06 13:53:34 515

原创 elk的安装使用（一）

2.nginx2.1.安装PCRE库[root@hadoop001 ~]# cd /usr/local/[root@hadoop001 local]# tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]# cd pcre-8.36[root@hadoop001 pcre-8.36]# ./configure[root@h

2017-12-06 13:51:52 337

原创 ELK 日志分析系统

一、简介1、核心组成ELK由Elasticsearch、Logstash和Kibana三部分组件组成；Elasticsearch是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。Logstash是一个完全开源的工具，它可以对你的日志进行收集、分析，并将其存储供以后使用k

2017-12-06 11:51:56 296

转载 Spark on yarn的内存分配问题

问题描述在测试spark on yarn时，发现一些内存分配上的问题，具体如下。在$SPARK_HOME/conf/spark-env.sh中配置如下参数：SPARK_EXECUTOR_INSTANCES=4 在yarn集群中启动的executor进程数SPARK_EXECUTOR_MEMORY=2G 为每个executor进程分配的内存大小SPARK_DRIV

2017-12-01 09:39:05 917

浅汐

原创 Spark Streaming中如何实现Exactly-Once

原创 hive性能调优

原创 Structured Streaming

原创 HiveServer2的HA

原创 Centos6.5 (64位) 搭建FTP服务器

原创 log4j输出日志到flume

原创 flume串联的简单使用

原创 log4j输出日志到flume

转载 kafka使用high api如何确保不丢失消息，不重复发送，消息只读取一次

原创 HDFS数据副本存放策略

原创 SparkStreaming之foreachRDD

原创 elk的安装使用（二）

原创 elk的安装使用（一）

原创 ELK 日志分析系统

转载 Spark on yarn的内存分配问题

空空如也

空空如也