自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浅汐

大数据技术交流与分享,内有大量大数据干货 1群:126181630 2群:663052251 3群:671914634 4群:707635769 5群:545916944

  • 博客(15)
  • 收藏
  • 关注

原创 Spark Streaming中如何实现Exactly-Once

Exactly-once 语义是实时计算的难点之一。要做到每一条记录只会被处理一次,即使服务器或网络发生故障时也能保证没有遗漏,这不仅需要实时计算框架本身的支持,还对上游的消息系统、下游的数据存储有所要求。此外,我们在编写计算流程时也需要遵循一定规范,才能真正实现 Exactly-once。本文将讲述如何结合 Spark Streaming 框架、Kafka 消息系统、以及 MySQL 数据库来实

2017-12-17 19:34:31 1468

原创 hive性能调优

1. 使用EXPLAIN通过EXPLAIN功能,可以帮助我们了解如何将查询转化成MapReduce任务的。 1、使用explain查看hive如何将查询转化成MapReduce任务的1.1 创建表create table onecol(number int)1.2 初始化数据并加载[hadoop@mycluster ~]$ v

2017-12-15 14:41:55 582

原创 Structured Streaming

Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和计算结果都映射成一张”结构化”的表,在计算的时候以结构化的方式去操作数据流,大大方便和提高了数据开发的效率。Spark2

2017-12-12 15:20:08 529

原创 HiveServer2的HA

在生产环境中使用Hive,强烈建议使用HiveServer2来提供服务,好处很多:1. 在应用端不用部署Hadoop和Hive客户端;2. 相比hive-cli方式,HiveServer2不用直接将HDFS和Metastore暴漏给用户;3. 有安全认证机制,并且支持自定义权限校验;4. 有HA机制,解决应用端的并发和负载均衡问题;5. JDBC方式,可以使用任何语言,

2017-12-12 14:50:55 461

原创 Centos6.5 (64位) 搭建FTP服务器

1. 在root权限下,通过如下命令安装Vsftp。# yum install vsftpd2. 在启动vsftpd服务之前,需要登录云服务器修改配置文件,将匿名登录禁用掉。打开配置文件,命令如下:# vim /etc/vsftpd/vsftpd.conf在配置文件中第11行的“anonymous_enable=YES”改为“anonymous_enable=NO”,即将匿名登

2017-12-11 20:36:00 174

原创 log4j输出日志到flume

Log4JAppender和LoadBalancingLog4jAppender可以将应用服务器的日志通过AvroSource实时的把日志传输到日志服务器,然后在传输到监控系统或者是HDFS中存储,FLume的Log4JAppender和LoadBalancingLog4jAppender必须使用Log4j的异步加载器,否则日志服务器down机,将会导致应用服务器异常,影响线上环境的使用。 应

2017-12-11 20:35:50 198

原创 flume串联的简单使用

agent1: exec + memory + avro#gent的名称为"a1"  a1.sources = r1  a1.sinks = k1  a1.channels = c1    a1.sources.r1.type = execa1.sources.r1.command = tail -F/opt/data/data.loga1.source

2017-12-11 20:35:29 570

原创 log4j输出日志到flume

Log4JAppender和LoadBalancingLog4jAppender可以将应用服务器的日志通过AvroSource实时的把日志传输到日志服务器,然后在传输到监控系统或者是HDFS中存储,FLume的Log4JAppender和LoadBalancingLog4jAppender必须使用Log4j的异步加载器,否则日志服务器down机,将会导致应用服务器异常,影响线上环境的使用。 应

2017-12-11 19:36:08 236

转载 kafka使用high api如何确保不丢失消息,不重复发送,消息只读取一次

首先说明,Kafka 的设计就是 at-least-once 的那么,如何确保非极端环境下,Kafka 不丢数据,以及 Kafka 集群尽可能稳定呢?Producer 端设置 ack 为 all(或者说尽可能越多越好,但实际生产里集群实例过多,这样设置会影响性能,因此根据具体情况来定),即 确保所有 replication 都拿到数据的时候,send 方法才得以返回,以此来判断数据

2017-12-10 22:00:23 1909

原创 HDFS数据副本存放策略

1.副本放置策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中;HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。目前实现的副

2017-12-10 17:54:30 3627

原创 SparkStreaming之foreachRDD

DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面有一些常用的错误需要理解。经常写数据到外部系统需要创建一个连接的object(eg:根据TCP协议连接到远程的服务器,我们连接外部数据库需要自己的句柄)和发送数据到远程的系统为此,开发者

2017-12-08 15:25:22 288

原创 elk的安装使用(二)

错误1:[2017-11-25T13:58:31,795][ERROR][o.e.b.Bootstrap          ] [node131] node validation exception[4] bootstrap checks failed[1]: max file descriptors [4096] for elasticsearch process is too lo

2017-12-06 13:53:34 515

原创 elk的安装使用(一)

2.nginx2.1.安装PCRE库[root@hadoop001 ~]#  cd /usr/local/[root@hadoop001 local]#  tar -zxvf pcre-8.36.tar.gz[root@hadoop001 local]#  cd pcre-8.36[root@hadoop001 pcre-8.36]#  ./configure[root@h

2017-12-06 13:51:52 337

原创 ELK 日志分析系统

一、简介1、核心组成ELK由Elasticsearch、Logstash和Kibana三部分组件组成;Elasticsearch是个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。Logstash是一个完全开源的工具,它可以对你的日志进行收集、分析,并将其存储供以后使用k

2017-12-06 11:51:56 296

转载 Spark on yarn的内存分配问题

问题描述在测试spark on yarn时,发现一些内存分配上的问题,具体如下。在$SPARK_HOME/conf/spark-env.sh中配置如下参数:SPARK_EXECUTOR_INSTANCES=4 在yarn集群中启动的executor进程数SPARK_EXECUTOR_MEMORY=2G 为每个executor进程分配的内存大小SPARK_DRIV

2017-12-01 09:39:05 917

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除