Syn良子-CSDN博客

原创将博客搬至CSDN

由于本人喜欢折腾，最近喜欢上了更加方便快捷的MarkDown来写原创内容，鉴于目前博客园的Markdown编辑器功能无法直视，所以搬迁博客至CSDN,欢迎小伙伴来交流.

2017-08-31 17:51:25 271

原创 Pyspark的HBaseConverters详解

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7449682.html 转载请注明出处最近在折腾pyspark的HbaseConverters，由于资料太少折腾了好一会儿才明白，特此分享给大家.问题背景最近在使用pyspark写hbase的过程中发现，会报以下类似的错误这是由于最终计算结果存入hbase的时候pyspark无法找到相关的co

2017-08-31 17:51:21 1617 2

原创 Pyspark访问Hbase

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7347167.html 转载请注明出处记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程.连接准备快速用pyspark访问Hbase中的表进行测试，代码如下(注意，其中的host和inputtable是已经定义好的主机和表名变量)spar

2017-08-31 17:51:16 9759 11

原创 Hbase1.0伪分布式集群启动失败问题

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7340681.html 转载请注明出处最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败，使用的Hbase版本为Apache Hbase1.0,解决过程如下发现问题经过仔细观察日志，发现Hbase启动的时候会报错"the hostname of regionserver cannot

2017-08-31 17:51:11 807

原创 Hbase FilterList使用总结

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/7098138.html 转载请注明出处我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端，单个的filter还好说，如果有多个呢，那么就需要使用FilterList,它也是继承于抽象类Filter,里面持久化了一个有序的order list来存储不同的filter对数据进

2017-08-31 17:51:05 1292

原创 Phoenix编译支持CDH

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6898227.html 转载请注明出处最近由于想调研下低延迟的数据查询框架，那么基于SQL on Hbase的Phoenix是必不可少的，先熟悉下它的编译和部署并记录下过程Phoenix编译由于当前我的测试集群是CDH5.4.0，而它并没有把phoenix include进去,因为需要自己修改pho

2017-08-31 17:51:00 814

原创 HiveHbase集成实践

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作，对了，这里可能有人会问，为啥要这么集成呢，有什么场景呢。那我举个场景栗子,比如我们可能会用Hbase做后台历史日志的存储和统计. 而进行离线日志的存储统计的时候，你当然可以选择用Hadoop MR

2017-08-31 17:50:55 264

原创 Hive的静态分区和动态分区

作者：Syn良子出处：http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处虽然之前已经用过很多次hive的分区表，但是还是找时间快速回顾总结一下加深理解. 举个栗子，基本需求就是Hive有一张非常详细的原子数据表original_device_open，而且还在不断随着时间增长，那么我需要给它进行分区，为什么要分区?因为我想缩小查询范围，

2017-08-31 17:50:50 390

原创 Linux使用free命令查看实际内存占用

转自:http://www.cnblogs.com/pengdonglin137/p/3315124.html Linux下在终端环境下可以使用free命令看到系统实际使用内存的情况，一般用free -m方式查看内存占用情况（兆为单位）。而系统实际可用内存是不是free部分呢，不是的，系统实际内存占用以及可用内存有如下几个加减法： used=total-free 即 total=used+fre

2017-08-31 17:50:45 9424 1

转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存，当集群中运行的任务特别多时，就会挂掉，原因是master会读取每个task的event log日志去生成spark ui，内存不足自然会OOM，可以在master的运行日志中看到，通过HA启

2017-08-31 17:50:40 387

原创 Python日期字符串比较

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小，其实实现很简单,首先一些基础的日期格式化知识如下 '''%a星期的简写。如星期三为Web%A星期的全写。如星期三为Wednesday%b月份的简写。如4月份为Apr%B月份的全写。如4月份为April%c: 日

2017-08-31 17:50:35 1793

原创 Cannot obtain block length for LocatedBlock故障分析和解决

摘要: 作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常，get也一样，这样无法访问hdfs文件的问题必须解决，Mark一下问题背景和解决过程一.问题背景问题产生的原因可能是由于前几日Hadoop集

2017-08-31 17:50:30 577 1

原创 HDFS租约机制

转自:http://blog.csdn.net/androidlushangderen/article/details/52850349 在HDFS中，当每次客户端用户往某个文件中写入数据的时候，为了保持数据的一致性，此时其它客户端程序是不允许向此文件同时写入数据的。那么HDFS是如何做到这一点的呢？答案是租约（Lease）。换句话说，租约是HDFS给予客户端的一个写文件操作的临时许可证，无此

2017-08-31 17:50:27 317

原创 shell 脚本中双引号单引号反引号的区别

转自:http://blog.csdn.net/iamlaosong/article/details/54728393 最近要编个shell脚本处理数据，需要检测数据文件是否存在，文件名中包含日期，所以需要生成最近几天的日期，以便检测文件是否存在，看下面的脚本中如何使用双引号、单引号、反引号： OPDATE=`date -d '-1 day' +%Y%m%d` for i in $(se

2017-08-31 17:50:22 292

原创 Linux命令执行的屏幕输出内容重定向到日志文件

摘要: 作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处快速mark一下这个命令细节，免得以后使用又忘记了大家都知道可以用echo来输出内容到文件，比如 echo “hello,word”>> temp.txt 那么我现在想把hadoop或者spark的命令执行的屏幕输出到文件怎么办？很简单，命令如下 hadoop jar *.jar $

2017-08-31 17:50:20 23856

原创 Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

本文转发自Jason’s Blog，原文链接 http://www.jasongj.com/spark/skew/ 摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Skew）什么是数据倾斜对Sp

2017-08-31 17:50:15 473

原创修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

转自:http://www.cnblogs.com/lxf20061900/p/4014281.html Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path"，不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀。　　在实际使用中发现Flume内置的基于正则的解析方式非常耗时，有非常大的提升空间。如果你不需

2017-08-31 17:50:10 360

原创 Hbase 布隆过滤器BloomFilter介绍

转载自:http://blog.csdn.net/opensure/article/details/46453681 1、主要功能提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中，一旦写入无法更新，因为StoreFile是不可变的。Bloomfilter是一个列族（cf）级别的配置属性，如果你在表中设置了Bloomfilter，那么HBase会在生

2017-08-31 17:50:05 704

原创 Hadoop创始人Doug Cutting寄语2017：五种让开源项目成功的方法

原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错，Mark一下由于Doug Cutting和Apache软件基金会有多年的合作关系，于是经常被问到“什么是开源技术的未来？”。Doug的回应一般要么是“

2017-08-31 17:50:00 844

原创 HBase在数据统计应用中的使用心得

转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求互联网上对于数据的统计，一个重要的应用就是对网站站点数据的统计，例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。网站站点统计工具无外乎有以下一些功能： 1）网站流量统计：包括PV、UV、IP等指标，这

2017-08-31 17:49:55 792

原创 Kafka connect快速构建数据ETL通道

摘要: 作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处业余时间调研了一下Kafka connect的配置和使用，记录一些自己的理解和心得,欢迎指正. 一.背景介绍 Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能. 大家

2017-08-31 17:49:50 1881

原创 GitHub更新自己Fork的项目

转自:http://www.tuicool.com/articles/MzMJre github的fork可以将别人的工程复制到自己账号下。这个功能很方便，但其有一个缺点是：当源项目更新后，你fork的分支并不会一起更新，需要自己手动去更新。以gitHub用户:micmiu (账号名)，fork 项目 sql-parser（https://github.com/FoundationDB/sql-

2017-08-31 17:49:45 339

原创深入浅出数据仓库中SQL性能优化之Hive篇

转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job，一个Map Reduce Job又有Map，Reduce，Spill，Shuffle，Sort等多个阶段，所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化（其中又会有细分），针对MR全局的优化，和针对整个查询（多MR Job）的优化

2017-08-31 17:49:38 184

原创 Hive读取外表数据时跳过文件行首和行尾

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处有时候用hive读取外表数据时，比如csv这种类型的，需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息，这里可以用属性设置来实现，快速mark下，建表的时候设置如下 Create external table testtable (name string, message string

2017-08-31 17:49:35 1022

原创 Spark读写Hbase的二种方式对比

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase，如下代码所示简单解释下，用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable,

2017-08-31 17:49:30 293

原创 Scala集合和Java集合对应转换关系

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用Scala编码的时候，经常会遇到scala集合和Java集合互相转换的case,特意mark一下，加深记忆 scala.collection.Iterable java.lang.Iterable scala.collection.Iterable java.util.Collection

2017-08-31 17:49:27 413

原创 kafka性能参数和压力测试揭秘

转自:http://blog.csdn.net/stark_summer/article/details/50203133 上一篇文章介绍了Kafka在设计上是如何来保证高时效、大吞吐量的，主要的内容集中在底层原理和架构上，属于理论知识范畴。这次我们站在应用和运维的角度，聊一聊集群到位后要怎么才能最好的配置参数和进行测试性能。Kafka的配置详尽且复杂，想要进行全面的性能调优需要掌握大量信息，我也

2017-08-31 17:49:22 396

原创 MapReduce和Spark写入Hbase多表总结

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处大家都知道用mapreduce或者spark写入已知的hbase中的表时，直接在mapreduce或者spark的driver class中声明如下代码 job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, tablename);

2017-08-31 17:49:19 477

原创 SparkStreaming实现Exactly-Once语义

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处译自:http://blog.cloudera.com/blog/2015/03/exactly-once-spark-streaming-from-apache-kafka/ 查资料时发现上面这篇文章不错，虽然是1.3的老版本的知识,但是还是有借鉴的地方，业余时间按照自己的理解翻译了一遍，有不

2017-08-31 17:49:14 472

原创 Hive索引功能测试

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看，Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升，参考了一些资料亲手实现了一遍，记录下过程和心得一.测试数据准备 1.新建一个gen-data.sh脚本，内容如下 #! /bin/bash #generating 1.7G raw

2017-08-31 17:49:09 263

原创 Spark的DataFrame的窗口函数使用

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下val sqlContext = new SQLContext(sc)sqlContext.sql(“select ….”)然

2017-08-31 17:49:04 3376

原创《Kafka Stream》调研：一种轻量级流计算模式

原文链接:https://yq.aliyun.com/articles/58382 摘要：流计算，已经有Storm、Spark，Samza，包括最近新起的Flink，Kafka为什么再自己做一套流计算呢？Kafka Stream 与这些框架比有什么优势？Samza、Consumer Group已经包装了Kafka轻量级的消费功能，难道不够吗? Confluent Inc（原LinkedIn Ka

2017-08-31 17:48:59 970

原创 Kafka0.10的新特性一览

原文链接:http://kane-xie.iteye.com/blog/2301197 2016年5月Confluent官方宣布Apache Kafka 0.10正式发布。该版本包含了很多新功能和优化，这里列出比较重要的几项： Streams 如果你有这样的需求，从Kafka拉取数据进行流处理然后再推送回Kafka，那么你会喜欢0.10的Kafka Streams。Kafka Streams是一

2017-08-31 17:48:54 280

原创 Spark计算均值

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处用spark来快速计算分组的平均值，写法很便捷，话不多说上代码 object ColumnValueAvg extends App { /** * ID,Name,ADDRESS,AGE * 001,zhangsan,chaoyang,20 * 002,zhangsa

2017-08-31 17:48:49 5787

原创 RDD、DataFrame和DataSet的区别

原文链接：http://www.jianshu.com/p/c0181667daa0 RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD-DataFrame 上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person

2017-08-31 17:48:44 205

原创基于 Hive 的文件格式：RCFile 简介及其应用

转载自:https://my.oschina.net/leejun2005/blog/280896 Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。 1、hadoop 文件格式简介目前 hadoop 中流行的文件格式有如下几种：

2017-08-31 17:48:39 323

原创 Gobblin采集kafka数据

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处找时间记录一下利用Gobblin采集kafka数据的过程，话不多说，进入正题一.Gobblin环境变量准备需要配置好Gobblin0.7.0工作时对应的环境变量，可以去Gobblin的bin目录的gobblin-env.sh配置，比如 export GOBBLIN_JOB_CONFIG_DI

2017-08-31 17:48:34 1923 1

原创 Scala 中下划线的用途

转载自:https://my.oschina.net/leejun2005/blog/405305 Scala 作为一门函数式编程语言，对习惯了指令式编程语言的同学来说，会不大习惯，这里除了思维方式之外，还有语法层面的，比如 underscore（下划线）就会出现在多种场合，令初学者相当疑惑，今天就来总结下 Scala 中下划线的用法。1、存在性类型：Existential typesdef f

2017-08-31 17:48:29 373

原创 Gobblin编译支持CDH5.4.0

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处 Gobblin的前身是linkedin的Camus,好多人也用过，准备用Gobblin的方式来抽取数据，不过由于连接的集群是CDH的，而Gobblin默认支持的是hadoop2.3.0,因此需要手动编译一个支持CDH的Gobblin版本，否则使用中会遇到无法写入hdfs等不兼容的问题.整理记录其

2017-08-31 17:48:25 468

原创 Kafka到Hdfs的数据Pipeline整理

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处找时间总结整理了下数据从Kafka到Hdfs的一些pipeline，如下 1> Kafka -> Flume –> Hadoop Hdfs 常用方案,基于配置,需要注意hdfs小文件性能等问题. GitHub地址: https://github.com/apache/flume 2> Kafk

2017-08-31 17:48:20 1357

空空如也

空空如也