自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (2)
  • 收藏
  • 关注

转载 spark1.x-spark-sql性能优化

cache join和group by 作为变量设置shuffle过程中的并行度spark.sql.shuffle.partitions SQLContext.setConf()在hive数据仓库建设过程中 合理设置数据类型 比如能设置为INT的 不要设置为BigInt 减少数据类型导致的内存开销填写SQL时 尽量给出明确的列名 比如select name from students 不要

2017-06-29 15:03:28 971

转载 spark1.x-spark-sql-数据倾斜解决方案

聚合源数据过滤导致倾斜的key where条件提高shuffle并行度 spark.sql.shuffle.partitions sqlContext.setConf("spark.sql.shuffle.partitions","1000") // 默认的并行度 为 200 reducetask只有200双重group by 改写SQL 改成两次Group by 给某个字段加上随

2017-06-29 14:54:19 2360

原创 spark1.x-性能优化策略

1、使用高性能序列化类库2、优化数据结构3、对多次使用的RDD进行持久化 / Checkpoint4、使用序列化的持久化级别5、Java虚拟机垃圾回收调优6、提高并行度7、广播共享数据8、数据本地化9、reduceByKey和groupByKey的合理使用10、Shuffle调优

2017-06-28 15:51:55 331

转载 spark1.x-rdd api (大全)

RDD提供了两种类型的操作:transformation和action transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD action是得到一个值,或者一个结果(直接将RDD cache到内存中) 所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的

2017-06-28 00:03:01 439

转载 spark1.x-rdd运算原理

RDD运算原理 (spark版本:spark-1.6.0-cdh5.7.0-src)

2017-06-27 17:15:08 347

转载 spark1.x-streaming

整体架构运行原理源码结构dstream kafka

2017-06-27 14:43:23 295

转载 spark1.x-sql-架构原理

整体架构 详解源码结构catalyst sql hive hive-thriftserver

2017-06-27 13:58:49 391

转载 spark1.x-架构

spark生态系统组件栈 spark-standalonespark-on-yarnyarn-clientyarn-cluster分阶段分析Job 提交下图展示了driver program(假设在 master node 上运行)如何生成 job,并提交到 worker node 上执行。Driver 端的逻辑如果用代码表示:finalRDD.action()=> sc.runJob()//

2017-06-27 11:41:30 369

原创 github-知名组织

https://github.com/apachehttps://github.com/googlehttps://github.com/IBMhttps://github.com/spring-projectshttps://github.com/eclipsehttps://github.com/databrickshttps://github.com/AlibabaTechhttps://gi

2017-06-15 06:12:01 685

原创 hbase-scala-获取连接

简单写一个scala获取hbase 连接方法/** * HBase工具类 */import org.apache.hadoop.hbase.client.{BufferedMutator, Connection, ConnectionFactory, Put}import org.apache.hadoop.hbase.util.Bytesimport org.apache.hadoo

2017-06-14 16:33:16 3005

转载 hbase-创建连接报错 java.lang.OutOfMemoryError: unable to create new native thread

最近在本地电脑上连接hbase 出现错误 找到一篇不错的博客,希望能给遇到类似问题的同学提供参考来源: http://blog.sina.com.cn/s/blog_637bd4500102vj6p.html报错信息:java.util.concurrent.ExecutionException: java.lang.RuntimeException: java.lang.OutOfMemoryE

2017-06-14 16:15:21 2311

转载 java-常见开源库2

activation.jar 与javaMail有关的jar包,使用javaMail时应与mail.jar一起加入到lib中去,具体负责mail的数据源和类型等。antlr.jar Hibernate用这个包来生成HQL语句并执行,是hibernate的必须包,没有它就会报NoClassDefFoundError: antlr/ANTLRException错误。ajaxtags-1.2-beta

2017-06-11 08:22:51 1093

转载 java-常用开源库-apache commons

Commons Logging Jakarta Commons Logging (JCL)提供的是一个日志(Log)接口(interface),同时兼顾轻量级和不依赖于具体的日志实现工具。 它提供给中间件/日志工具开发者一个简单的日志操作抽象,允许程序开发人员使用不同的具体日志实现工具。用户被假定已熟悉某种日志实现工具的更高级别的细节。JCL提供的接口,对其它一些日志工具,包括Log4J, Ava

2017-06-10 19:33:28 626

原创 spark-大表join优化方案

数据量: 1~2G左右的表与3~4T的大表进行Join拆分 将任务数据分为多个结果RDD,将各个RDD的数据写入临时的hdfs目录,最后合并调整并行度和shuffle参数 spark-submit 参数#提高shuffle阶段的任务并行度,降低单个任务的内存占用--conf spark.default.parallelism=2000 #提高shuffle 缓冲区大小--conf spa

2017-06-09 14:04:03 17734

原创 spark-troubleshooting-网卡流量激增问题

最近做大数据项目过程中,发现在集群上某个节点从第三方ftp服务器下载日志数据的时候,网络突然变慢,但是通过与运维沟通发现网络流量一直在满负荷传输, 与第三方反复沟通,发现两方服务器的配置完全正常,后来细心排查发现,原因是从hdfs读取数据的脚本以及spark使用client模式的任务占用大量的带宽 所以在spark生产环境最好采用cluster模式原理分析: 使用了client模式后,Driv

2017-06-07 15:08:32 527 2

原创 好的编程状态

单纯地沉浸在程序的世界里 任意发挥 在网易云音乐上发现一个提高专注力的歌单,挺好!http://music.163.com/#/playlist/6683129/5190793/

2017-06-07 13:38:58 320

转载 java-面试题

https://github.com/HuangQinJian/Interview-Questions

2017-06-06 10:04:29 250

转载 maven-pom-scope

Dependency scope 是用来限制Dependency的作用范围的, 影响maven项目在各个生命周期时导入的package的状态。 自从2.0.9后,新增了1种,现在有了6种scope:1.compile 编译范围,默认scope,在工程环境的classpath(编译环境)和打包(如果是WAR包,会包含在WAR包中)时候都有效。 默认的scope,表示 dependency 都可以

2017-06-03 22:25:25 436

转载 ftp-主动模式(PORT)和被动模式(PASV)

简介FTP协议要用到两个TCP连接, 一个是命令连接,用来在FTP客户端与服务器之间传递命令; 另一个是数据连接,用来上传或下载数据。 无论是主动模式还是被动模式,其要进行文件传输都必须依次建立两个连接,分别为命令连接与数据连接。而主动模式与被动模式的差异主要体现在数据连结通道上命令连接当FTP客户端需要登陆到FTP服务器上的时候,服务器与客户端需要进行一系列的身份验证过程,这个过程就叫做命令

2017-06-03 12:51:03 99501 5

原创 谈谈大数据编程的风格与思想

可能说思想,太高大上了点,其实就是个人在编程过程中,对于程序的设计与组织的一些心得,在这里声明一下只能代表我个人观点,各位朋友不喜勿喷,如果有不同的见解,可以留言评论哈~1、在写程序之前,尽可能地理清思路,如果是复杂的设计,最好画出流程图或序列图,然后安装思路边测试边修正,会事半功倍2、代码不是越精简、越晦涩越好,个人喜欢既通俗易懂 又不冗余,既灵活或者说模块化,又规范化的编程,不要把逻辑放在一个类

2017-06-01 23:07:52 855

转载 Mycat-简介

架构HA 下载地址1.6版本及之前https://github.com/MyCATApache/Mycat-download1.6版本后http://dl.mycat.io/相关项目https://github.com/MyCATApache官网http://www.mycat.io/

2017-06-01 20:01:28 282

原创 scala-时间工具类

TimeUtilsimport java.text.SimpleDateFormatimport com.github.nscala_time.time.Imports._import org.joda.time.DateTimeimport scala.collection.mutable.ArrayBufferobject TimeUtils { final val ONE_HOUR_MI

2017-06-01 18:52:41 7956

原创 android-opencv-下载地址

opencv 官网http://opencv.org/github 仓库https://github.com/opencvOpenCV Android SDK 下载地址https://sourceforge.net/projects/opencvlibrary/files/opencv-android/3.2.0版本 下载链接https://jaist.dl.sourceforge.net/proj

2017-06-01 15:39:08 2904

转载 sql-逻辑运算符-优先级

and的优先级高于orselect * from table where Condition1 and Condition2 or Condition3 等价于select * from table where (Condition1 and Condition2) or Condition3 想要的效果select * from ta

2017-06-01 14:53:16 1731

原创 spark-sql-求补集

方法一sqlContext.sql("select distinct sn from hr.sample_terminal_three").rdd.map(_.toString).subtract(sqlContext.sql("select distinct sn from hr.live_terminal").rdd.map(_.toString).distinct).count方法二s

2017-06-01 13:55:27 1169

原创 springboot-restful api-swagger2 ui-实战

swagger2 ui 自动生成api文档,就节省了编写接口测试和文档的工作,非常方便下面以集成融云IM api 为例,展示如何配置swagger2 pom.xml<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId

2017-06-01 04:19:15 2464

贵州全省最新最全国家行政区域码,包含省市县乡村五级和上下级关系

贵州全省最新最全国家行政区域码,包含省市县乡村五级和上下级关系

2024-01-31

livy-0.7.1-incubating-bin-cdh6.2.1.zip

基于apache 0.7.1源码编译的cdh6.2.1版本的livy

2021-11-20

Microsoft Visual C++ 14.0

windows 的 Microsoft Visual C++ 14.0 的运行库 python常用依赖

2020-10-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除