自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

转载 JVM垃圾收集器

常用垃圾回收算法标记-清理算法常用于新生代回收算法,即标记垃圾区域,然后清除垃圾区域,缺点是会产生很多内存碎片复制算法常用于新生代回收算法,将正在使用的回收算法复制到一块新的区域,然后将原区域标记为已清理的内存区域,这样可以去掉很多内存碎片标记-整理算法将标记的区域依次复制到一起,实现碎片整理垃圾收集器分类serial新生代串行回收垃圾,常用于cli...

2019-03-11 17:29:00 145

转载 JVM内存模型及常用内存设置

JVM的内存模型JVM(Java Virtual Machine)内存分为几大区域,包括程序计数器、堆、栈、方法区,其实内存模型和C++很类似。其中:程序计数器:记录当前执行指令的地址,对于if、for、递归、函数调用等,修改该计算器的值即可,该计数器有程序修改堆堆内存是通过new创建的对象,在JAVA中,用new创建的对象都是在堆创建的(基础类型除外),在C++中,使...

2019-03-07 17:08:00 173

转载 hive压缩优化-01

压缩优化--查看hive支持的压缩类型set io.compression.codecs;--开启hive中间压缩,对于hadoop job的是mapred.compress.map.output,并设置压缩为snappy压缩set hive.exec.compress.intermediate=true;mapred.map.output.compression.code...

2019-01-23 18:11:00 205

转载 hive参数优化-01

参数优化--启用限制set hive.limit.optimize.enable=true--限制最大记录行数为10万条,必须要开启启动限制才会生效set hive.limit.row.max.size=100000--限制最大文件数为10个,必须要开启启动限制才会生效set hive.limit.optimize.limit.file=10--运行速度优化,对于小的数...

2019-01-21 18:47:00 162

转载 spark小文件合并-01

spark合并小文件有两种办法,分别针对spark core和spark sql一、设置spark配置文件的属性(spark sql)spark.sql.shuffle.partitionsexample:SparkSession.builder().enableHiveSupport().config(conf). config("spark.sql.shuffle.par...

2019-01-08 13:00:00 621

转载 hive小文件优化-01

输入小文件优化--输入文件最大拆分大小,这里设置为128MSET mapred.max.split.size=128000000;--128MSET mapred.min.split.size.per.node=128000000;--128MSET mapred.min.split.size.per.rack=128000000;--输入端的合并类SET hive....

2019-01-08 10:53:00 152

转载 oozie调用sub-workflow串联工作流demo

注意这里调度配置文件需要全部上传到hdfs,这个路径通过oozieAppsRoot指定sql文件需要全部上传的hdfs,这个路径通过oozieScriptsRoot指定配置文件job.propertiesnameNode=hdfs://node1:8020jobTracker=node1:8032thriftAddress=thrift://node1:9083qu...

2018-12-13 13:53:00 781

转载 oozie使用shell刷新impala元数据

注意如果不加PYTHON_EGG_CACHE环境变量会导致执行失败,impala-shell本身可以正常执行,估计是oozie调用shell时会使用到python的一个缓存文件,这里加上export PYTHON_EGG_CACHE=/tmp/python-eggs即可成功调用服务代码flush-impala-metadata.shmkdir -p /tmp/python-egg...

2018-12-12 16:28:00 343

转载 oozie 调度 hive 之 demo

描述本文给出oozie调度hive的一些解释和配置demo,其中hive01是该配置的目录,其中job.properties、workflow.xml都放在该目录下,该目录还有一个子目录为script,这个子目录存放的是sql脚本,运行该程序需要用到hive-site.xml配置文件job.properties,该文件在hive01目录下 nameNode=hdfs://nod...

2018-12-07 10:34:00 481

转载 hive无法删除数据库

问题描述需要删除hive的数据库,直接使用drop database dbname;提示Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database temp001 is not empty. One or m...

2018-12-06 17:56:00 1180

转载 oozie-ssh

oozie使用ssh远程执行shell配置文件job.properties# 集群参数#nameNode地址nameNode=hdfs://node1:8020#resourceManager地址jobTracker=node1:8032#oozie队列 这个属性一般不做修改queueName=default# oozie#coordinator.xml在hdf...

2018-11-20 17:42:00 810

转载 集群优化(一)

问题1问题描述:Cloudera Manager Agent(node6) 的 Parcel 目录位于可用空间小于 5.0 吉字节 的文件系统上。 /opt/cloudera/parcels(可用:2.5 吉字节 (6.34%),容量:39.2 吉字节)原因:node6上/opt/cloudera/parcels可用目录的空间小于5G可选解决方案:1).更改服务对该目录需要...

2018-11-12 17:52:00 586

转载 scala编码规范v1.0.0

Databricks Scala 编程风格指南版本V1.0.0scala语法scala语法不是我们这片文档的重点,如果不知道或不熟悉scala语法的请参考www.runoob.com、scala-lang.org、github.com、spark.apache.org声明 (Disclaimer)本文档翻译自 Databricks Scala Guide,目前由 Hawste...

2018-10-15 18:30:00 231

转载 rdd取不到配置文件读出的值--使用广播变量解决

问题描述spark读取配置文件读取成功后,rdd中未拿到配置文件的值(executor未拿到配置文件的值,但是driver有这个值)解决方案将所需要的对象通过广播发送到各个executorcode:object BroadcastDemo { var c1 = 0 var c2 = 0 def main(args: Array[String]): Unit = ...

2018-10-10 19:12:00 244

转载 redis多级存储及查询

描述如何设计redis的数据结构,使用redis存储多级关系并快速查询假设:市是最后一级单位(如果是区县也同理)1).查询全国的数据?2).查询四川省的数据?3).查询成都市的数据?方案方案1:将“context_prefix_国家_省_市”作为key,value保存我们要查询的数据,这样便于保存 example:key ...

2018-08-07 15:36:00 3771

转载 crontab不能识别java命令

描述crontab 执行nohup java -jar xxx.jar>/dev/null 2>&1 &无法正常执行启动原因crontab默认只加载/ect/environment配置文件,未加载/etc/profile配置文件解决方案方案1:用绝对路径去启动命令nohup /usr/jdk1.8.0/bin/java -jar xxx.jar&...

2018-07-23 17:55:00 562

转载 二维码原理及生成示例

二维码介绍简介二维码又称 QR Code,QR 全称 Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的 Bar Code 条形码能存更多的信息,也能表示更多的数据类型:比如:字符,数字,日文,中文、网址等等。这两天学习了一下二维码图片生成的相关细节.基础知识首先,我们先说一下二维码一共有 40 个尺寸。官方叫版...

2018-06-22 16:16:00 1613

转载 kafka安装教程

环境依赖jdk:1.7+zookeeper安装安装jdk和zookeeper这里不做安装,如果你未安装这两个依赖,请自行查找安装办法。这里安装的版本是kafka_2.11-1.1.0wget http://mirrors.shu.edu.cn/apache/kafka/1.1.0/kafka_2.11-1.1.0.tgztar -zxvf kafka_2.11-1.1...

2018-05-25 15:56:00 100

转载 storm的安装和配置

安装stormwget https://archive.apache.org/dist/storm/apache-storm-1.1.1/apache-storm-1.1.1.tar.gztar zxf apache-storm-1.1.1.tar.gz修改配置cd apache-storm-1.1.1vi conf/storm.yaml配置zookeeper地址storm...

2018-05-18 16:52:00 283

转载 flume配置及使用

flume简介Flume是一种分布式、可靠和可用的服务,可以有效地收集、聚集和移动大量日志数据。它有一个基于流数据流的简单而灵活的体系结构。它具有可调可靠性机制和许多故障转移和恢复机制的健壮性和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序flume环境要求运行环境:jdk 1.8以上内存要求:内存需要满足配置使用的sources、channels、sinks...

2018-03-15 14:36:00 369

转载 flume安装

flume下载flume可以去官网下载最新版本(http://flume.apache.org),也可以直接下载flume1.8.0环境要求由于flume依赖于jdk,所以必须要安装jdk,由于最新的flume要求环境是jdk1.8,所以需要安装jdk1.8。jdk的安装教程请自行查阅文档.flume安装进入到flume的下载目录,将flume压缩文件解压tar -zxvf ...

2018-03-15 10:15:00 138

转载 经纬度相关公式及实现

需求已知两点经纬度,求两点间的距离已知两点经纬度,求两点间的方位角已知一点经纬度为中心、r为半径,求出该经纬度区间已知一点的经纬度、距离,方位角,求另一个点的经纬度公式已知两点经纬度,求两点间的距离:AB=R*arccos[sin(wA)sin(wB)+cos(wA)cos(wB)*cos(jA-jB)]已知两点经纬度,求两点间的方位角r*arccos[cos(y...

2018-02-24 18:07:00 790

转载 linux添加守护进程

问题linux(redhat)下,执行了baseinfo.sh>baseinfo.log 2>&1 &,系统显示是后台进程,退出ssh后,该进程被终止,导致进程无法长时间运行解决方案nohup baseinfo.sh>baseinfo.log 2>&1 &添加如下代码,发现baseinfo.sh已经是后台进程,按理说,b...

2018-01-03 10:00:00 546

转载 反射-Java中的反射机制

概念主要是指程序可以访问,检测和修改它本身状态或行为的一种能力,并能根据自身行为的状态和结果,调整或修改应用所描述行为的状态和相关的语义。反射是java中一种强大的工具,能够使我们很方便的创建灵活的代码,这些代码可以再运行时装配,无需在组件之间进行源代码链接。但是反射使用不当会成本很高!反射的作用是通过反射机制访问java对象的属性,方法,构造方法等。类说明1.Java...

2017-12-29 14:14:00 102

转载 redis集群下载、安装、部署

集群原理redis cluster在设计的时候,就考虑到了去中心化,去中间件,也就是说,集群中的每个节点都是平等的关系,都是对等的,每个节点都保存各自的数据和整个集群的状态。每个节点都和其他所有节点连接,而且这些连接保持活跃,这样就保证了我们只需要连接集群中的任意一个节点,就可以获取到其他节点的数据。Redis 集群没有并使用传统的一致性哈希来分配数据,而是采用另外一种叫做哈希槽 (...

2017-12-25 16:50:00 190

转载 zookeeper集群搭建

说明zookeeper集群必须是基数台服务器环境准备os:linux(可前往官网下载centos)jdk环境(可前往官网下载jdk)zookeeper安装包(可前往官网下载zookeeper)这里安装CentOS和JDK不再重复,详情请自行查阅资料下载zookeeper拷贝zookeeper到服务器拷贝有很多方式,这里我介绍四种常用的方式可以通过scp拷贝文件到...

2017-12-20 15:22:00 124

转载 linux常用配置

配置IP和DNS方法一:修改配置文件1.编辑网卡的配置文件vi /etc/sysconfig/network-scripts/ifcfg-eth0 #edit eth0 config2.配置IP、子网掩码、网关IPADDR是IP,NETMASK是子网掩码,GATEWAY是网关,分别把这三项设置成网络管理员分配给你们的值就行IPADDR=192.168.163.101NETM...

2017-12-15 12:22:00 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除