Syn良子的博客

每天都保持空杯心态

将博客搬至CSDN

由于本人喜欢折腾,最近喜欢上了更加方便快捷的MarkDown来写原创内容,鉴于目前博客园的Markdown编辑器功能无法直视,所以搬迁博客至CSDN,欢迎小伙伴来交流.

2017-08-31 17:51:25

阅读数 136

评论数 0

Pyspark的HBaseConverters详解

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7449682.html 转载请注明出处 最近在折腾pyspark的HbaseConverters,由于资料太少折腾了好一会儿才明白,特此分享给大家. 问题背景 最近在使用pyspark写hbase的过程...

2017-08-31 17:51:21

阅读数 1108

评论数 2

Pyspark访问Hbase

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7347167.html 转载请注明出处 记录自己最近抽空折腾虚拟机环境时用spark2.0的pyspark访问Hbase1.2时遇到的问题及解决过程. 连接准备 快速用pyspark访问Hbase中的表...

2017-08-31 17:51:16

阅读数 5815

评论数 5

Hbase1.0伪分布式集群启动失败问题

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7340681.html 转载请注明出处 最近抽空折腾自己的虚拟机环境时启动伪分布式Hbase集群一直失败,使用的Hbase版本为Apache Hbase1.0,解决过程如下 发现问题 经过仔细观察日志,...

2017-08-31 17:51:11

阅读数 314

评论数 0

Hbase FilterList使用总结

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/7098138.html 转载请注明出处 我们知道Hbase的Scan经常需要用到filter来过滤表中的数据返回给客户端,单个的filter还好说,如果有多个呢,那么就需要使用FilterList,它也是...

2017-08-31 17:51:05

阅读数 403

评论数 0

Phoenix编译支持CDH

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6898227.html 转载请注明出处 最近由于想调研下低延迟的数据查询框架,那么基于SQL on Hbase的Phoenix是必不可少的,先熟悉下它的编译和部署并记录下过程 Phoenix编译 由于当前...

2017-08-31 17:51:00

阅读数 398

评论数 0

HiveHbase集成实践

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6857891.html 转载请注明出处 简单的说就是可以通过Hive SQL直接对hbase的表进行读写操作,对了,这里可能有人会问,为啥要这么集成呢,有什么场景呢。那我举个场景栗子,比如我们可能会用Hb...

2017-08-31 17:50:55

阅读数 120

评论数 0

Hive的静态分区和动态分区

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html 转载请注明出处 虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_devi...

2017-08-31 17:50:50

阅读数 155

评论数 0

Linux使用free命令查看实际内存占用

转自:http://www.cnblogs.com/pengdonglin137/p/3315124.html Linux下在终端环境下可以使用free命令看到系统实际使用内存的情况,一般用free -m方式查看内存占用情况(兆为单位)。而系统实际可用内存是不是free部分呢,不是的,系统实际内存...

2017-08-31 17:50:45

阅读数 1008

评论数 0

Spark排错与优化

转自:http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event ...

2017-08-31 17:50:40

阅读数 147

评论数 0

Python日期字符串比较

作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 需要用python的脚本来快速检测一个文件内的二个时间日期字符串的大小,其实实现很简单,首先一些基础的日期格式化知识如下 ''' %a星期的简写。如 星期三为Web %A星期的全写。如 星期三为...

2017-08-31 17:50:35

阅读数 279

评论数 0

Cannot obtain block length for LocatedBlock故障分析和解决

摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 这几天想cat一下某天的HDFS文件内容的时候突然报Cannot obtain block length for LocatedBlock异常,get也一样,这样无法访问hdfs文件的问...

2017-08-31 17:50:30

阅读数 250

评论数 1

HDFS租约机制

转自:http://blog.csdn.net/androidlushangderen/article/details/52850349 在HDFS中,当每次客户端用户往某个文件中写入数据的时候,为了保持数据的一致性,此时其它客户端程序是不允许向此文件同时写入数据的。那么HDFS是如何做到这一...

2017-08-31 17:50:27

阅读数 129

评论数 0

shell 脚本中双引号 单引号 反引号 的区别

转自:http://blog.csdn.net/iamlaosong/article/details/54728393 最近要编个shell脚本处理数据,需要检测数据文件是否存在,文件名中包含日期,所以需要生成最近几天的日期,以便检测文件是否存在,看下面的脚本中如何使用双引号、单引号、反引号: O...

2017-08-31 17:50:22

阅读数 125

评论数 0

Linux命令执行的屏幕输出内容重定向到日志文件

摘要: 作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 快速mark一下这个命令细节,免得以后使用又忘记了 大家都知道可以用echo来输出内容到文件,比如 echo “hello,word”>> temp.txt 那么我现在想把h...

2017-08-31 17:50:20

阅读数 10672

评论数 0

Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势

本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧J...

2017-08-31 17:50:15

阅读数 205

评论数 0

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

转自:http://www.cnblogs.com/lxf20061900/p/4014281.html Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支...

2017-08-31 17:50:10

阅读数 123

评论数 0

Hbase 布隆过滤器BloomFilter介绍

转载自:http://blog.csdn.net/opensure/article/details/46453681 1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfil...

2017-08-31 17:50:05

阅读数 110

评论数 0

Hadoop创始人Doug Cutting寄语2017:五种让开源项目成功的方法

原文链接:http://www.infoq.com/cn/news/2017/01/Hadoop-2017-5-open-source?utm_source=tuicool&utm_medium=referral InfoQ上看到这篇文章还不错,Mark一下 由于Doug Cutting...

2017-08-31 17:50:00

阅读数 153

评论数 0

HBase在数据统计应用中的使用心得

转载自:http://www.cnblogs.com/panfeng412/archive/2011/11/19/2254921.html 1. 数据统计的需求 互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒...

2017-08-31 17:49:55

阅读数 276

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭