2017年09月_卡奥斯道

转载集合各实现类的底层实现原理

ArrayList实现原理要点概括参考文献：http://zhangshixi.iteye.com/blog/674856lArrayList是List接口的可变数组非同步实现，并允许包括null在内的所有元素。底层使用数组实现该集合是可变长度数组，数组扩容时，会将老数组中的元素重新拷贝一份到新的数组中，每次数组容量增长大约是其容量的1.5倍，这种操作的代价很高。采用了Fail-F

2017-09-29 21:31:10 229

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

转：http://unixboy.iteye.com/blog/174173/堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测

2017-09-29 13:41:51 183

转载 Hive2.0函数大全(中文版)

转：http://www.cnblogs.com/MOBIN/p/5618747.html目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数数学函数Return TypeName (Signature)Description

2017-09-28 20:13:30 547

转载 KafkaUtils.createDirectStream

转：http://blog.selfup.cn/1665.html官网上对这个新接口的介绍很多，大致就是不与zookeeper交互，直接去kafka中读取数据，自己维护offset，于是速度比KafkaUtils.createStream要快上很多。但有利就有弊：无法进行offset的监控。项目中需要尝试使用这个接口，同时还要进行offset的监控，于是只能按照官网所说的，自己将o

2017-09-27 19:39:49 12570 1

转载读写parquet格式文件的几种方式

转：http://blog.csdn.net/woloqun/article/details/76068147摘要本文将介绍常用parquet文件读写的几种方式1.用spark的hadoopFile api读取hive中的parquet格式文件2.用sparkSql读写hive中的parquet格式3.用新旧MapReduce读写parquet格式文件

2017-09-25 18:31:49 8830

转载将 Spark 中的文本转换为 Parquet 以提升性能

转：https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/列式存储布局（比如 Parquet）可以加速查询，因为它只检查所有需要的列并对它们的值执行计算，因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项，因此可以显著减少磁盘上的存储。如果您在 HDFS

2017-09-25 18:10:22 498

原创 parquet压缩格式参数设置以及简单操作

Parquet 文件会在 gzip 中自动压缩，因为 Spark 变量 spark.sql.parquet.compression.codec 已在默认情况下设置为 gzip。您还可以将压缩编解码器设置为 uncompressed、snappy 或 lzoobject Save2Parquet { def main(args: Array[String]): Unit = {

2017-09-25 18:05:24 10433

转载 User root is not allowed to impersonate anonymous

使用HiveServer2 and Beeline模式运行时，启动好HiveServer后运行beeline -u jdbc:hive2://localhost:10000 -n root 连接server时出现java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.secu

2017-09-25 15:20:59 925

转载 Spark优化：禁止应用程序将依赖的Jar包传到HDFS

转：　https://www.iteblog.com/archives/1173.html每次当你在Yarn上以Cluster模式提交Spark应用程序的时候，通过日志我们总可以看到下面的信息：21Oct 201414:23:22,006INFO [main] (org.apache.spark.Logging$class.lo

2017-09-25 11:06:22 1418

转载 maven核心---pom.xml详解

转：http://www.cnblogs.com/qq78292959/p/3711501.html http://blog.csdn.net/odeviloo/article/details/52050277什么是pom? pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目：包括配置文件；开发者需要遵循的规则，缺

2017-09-24 21:51:54 432

原创 ES高级查询，高亮显示

package com.uplooking.bigdata.elasticsearch;import org.elasticsearch.action.search.SearchType;import org.elasticsearch.action.search.SearchResponse;import org.elasticsearch.common.text.Text;impor

2017-09-22 09:29:24 4585

原创 hive双重groupby 随机前缀

package com.xxximport java.util.Randomimport org.apache.spark.sql.types.{DataTypes, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.{SparkConf, Spark

2017-09-21 23:37:29 1140

原创字符转数字不使用str.toInt方法转为整型

object Str2Int { def main(args: Array[String]): Unit = { Str2Int("1234567") //true } def Str2Int(str: String): Unit = { implicit def double2Int(d:Double) = d.toInt var length = str

2017-09-14 00:24:47 1379

原创 scala隐士转换

object ImplicitOps { def main(args: Array[String]): Unit = { implicitOps1 implicitOps2 implicitOps3 } /** * 隐士转换参数 * 就在正常的参数列表后面跟上一个(),()中的参数需要以implicit开头 * ()()-----

2017-09-14 00:03:39 415

转载大数据常见错误解决方案

大数据常见错误解决方案（转载）http://www.cnblogs.com/cstzhou/p/6437270.html1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries

2017-09-13 16:14:49 3159

转载资源调度

转：https://www.2cto.com/kf/201610/557115.html 其中的资源调度部分资源调度集群当前仅支持一种先进先出的资源调度模式. 然而，为了支持多个并行的用户操作，你可以控制每一个应用程序所能使用的最大的资源. 默认情况下，应用程序将会占用你所有的cpu数量，然而这种分配方式仅仅在你只有一个应用程序需要运行的情况下是合理的. 你可以控制应用程序的核数通

2017-09-13 10:52:16 334

转载《Spark 官方文档》Spark调优

转自：http://ifeve.com/spark-tuning/spark-1.6.0 原文地址Spark调优由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存（st

2017-09-13 10:28:34 266

转载 Spark性能调优之合理设置并行度

转：http://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.htmlSpark性能调优之合理设置并行度1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然

2017-09-13 10:10:00 2422

转载 spark-shuffer参数调优

转自：https://tech.meituan.com/spark-tuning-pro.html 部分shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性

2017-09-13 00:19:47 1484

转载 spark-submit参数优化配置

转自：http://blog.csdn.net/chenjieit619/article/details/53421080在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，

2017-09-13 00:01:22 1306

原创 beyond virtual memory limits. Current usage: 142.3 MB of 1 GB physical memory used;

Diagnostics: Container [pid=7936,containerID=container_1505273975531_0008_02_000001] is running beyond virtual memory limits. Current usage: 142.3 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container.

2017-09-12 22:58:43 2713 1

转载 yarn简介及内存配置

转载：http://blog.chinaunix.net/uid-28311809-id-4383551.html在这篇博客中，主要介绍了Yarn对MRv1的改进，以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是：在运行时，JobTracker既负责资源管理又负责任务调度，这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题，是与其

2017-09-12 21:44:30 1003

转载 spark中yarn-client和yarn-cluster区别

参考：http://blog.csdn.net/trigl/article/details/72732241http://blog.csdn.net/xinganshenguang/article/details/53302526http://blog.csdn.net/high2011/article/details/67637338摘要在Spark中，有

2017-09-12 18:05:36 5836 3

原创新手易犯错误之java基本类型数据整除

//严重低级错误（写项目时忽略的,简化为以下例子）//scala中也可以 (a.toDouble / b *c).toInt 还是最后整除的方便public static void main(String[] args){ System.out.println( 10 / 100 * 20 ); //为0 System.out.println( 10 * 20 / 100

2017-09-08 23:27:47 305

原创将<yyyy-MM-dd_HH, count>格式的数据，转化为<yyyy-MM-dd, <HH, count>>

/**dateHourMap[String,Long] -----------> dateHourCountMap[String,hourCount[String,Long]] * 将格式的数据，转化为> */ var dateHourCountMap:mutable.HashMap[String,mutable.HashMap[String,Long]] = new mutable.

2017-09-08 12:55:10 287

原创 java和scala中集合之contains方法易忽略类型不一致导致错误

1、java代码public class TestContains { public static void main(String[] args) { //类型为int int i = 1; //泛型为String List list = new ArrayList(); list.add("1"); lis

2017-09-07 17:17:46 3982

原创基于centos7系统下HDP搭建

一、基本配置1.修改ipvi /etc/sysconfig/network-scrpit/ifcfg-eno16777736三台机器base01、base02、base03，对应的ip地址分别为base01 192.168.43.131base02 192.168.43.132base03 192.168.43.1332.重启网络服务systemctl re

2017-09-07 14:53:44 1115 1

原创 kafka--简介、组件构成、安装、基础操作

一、消息队列消息 Message网络中的两台计算机或者两个通讯设备之间传递的数据。例如说：文本、音乐、视频等内容。队列 Queue一种特殊的线性表（数据元素首尾相接），特殊之处在于只允许在首部删除元素和在尾部追加元素。入队、出队。消息队列 MQ消息+队列，保存消息的队列。消息的传输过程中的容器；主要提供生产、消费接口供外部调用做数据的存储和获取。MQ主要分为

2017-09-07 13:08:44 696

卡奥斯道的博客