自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(266)
  • 收藏
  • 关注

原创 hbase-default.xml参数解读

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- hbase的本地临时目录,每次机器重启数据会丢失,建议放到某个持久化文件目录下 --> <property...

2019-09-09 23:40:12 295

原创 Hbase--put、BufferedMutator、get

Hbase写入数据的几种方式我们总结一下hbase几种写入常见的方式,以及涉及的应用场景,另外再总结一下其中涉及到的一些原理知识。hbase一般的插入过程都使用HTable对象,将数据封装在Put对象中,Put在new创建的时候需要传入rowkey,并将列族,列名,列值add进去。然后HTable调用put方法,通过rpc请求提交到Regionserver端。写入的方式可以分为以下几种单条...

2019-08-31 08:04:12 830

原创 jstat命令查看jvm的GC情况

 jstat命令查看jvm的GC情况 (以Linux为例)  jstat命令可以查看堆内存各部分的使用量,以及加载类的数量。命令的格式如下: jstat [-命令选项] [vmid] [间隔时间/毫秒] [查询次数] 注意!!!:使用的jdk版本是jdk8.   类加载统计: Loaded:加载cla...

2019-08-28 20:27:24 370

转载 步步深入:MySQL架构总览->查询执行流程->SQL解析顺序

前言:  一直是想知道一条SQL语句是怎么被执行的,它执行的顺序是怎样的,然后查看总结各方资料,就有了下面这一篇博文了。  本文将从MySQL总体架构--->查询执行流程--->语句执行顺序来探讨一下其中的知识。 一、MySQL架构总览:  架构最好看图,再配上必要的说明文字。  下图根据参考书籍中一图为原本,再在其上添加上了自己的理解。 ...

2019-08-19 22:46:52 277

原创 LInux安装ficonfig和rz,sz命令

安装ifconfig首先 ls /sbin/ifconfig ,确认是否是环境变量没有ifconfig引起的如果确定了系统是没有安装ifconfig命令的,进行如下操作来安装:yum install ifconfig此时出现下图:这个时候,我们使用yum search ifconfig来搜索下ifconfig相关资源查看ifconfig匹配的是net-tools.x...

2019-08-15 09:15:48 347

原创 linux文件句柄数

1、问题阐述:toomanyopenfiles:顾名思义即打开过多文件数。不过这里的files不单是文件的意思,也包括打开的通讯链接(比如socket),正在监听的端口等等,所以有时候也可以叫做句柄(handle),这个错误通常也可以叫做句柄数超出系统限制。2、产生的原因:经常在使用linux的时候出现,大多数情况是由于程序没有正常关闭一些资源引起的,所以出现这种情况,请检查...

2019-08-10 12:21:04 373

原创 Linux能同时启动多少个线程

默认情况下:主线程+辅助线程 +<253个自己的线程<=255含主线程和一个辅助线程,最多255个,即一个用户只能生成253个线程。Linux最大线程数限制及当前线程数查询:1、总结系统限制有:/proc/sys/kernel/pid_max #查系统支持的最大线程数,一般会很大,相当于理论值/proc/sys/kernel/thread-maxmax_user_...

2019-08-10 11:18:16 494

原创 PySpark---SparkSQL中的DataFrame(四)

1.replace(to_replace, value=_NoValue, subset=None)"""Returns a new :class:`DataFrame` replacing a value with another value.:func:`DataFrame.replace` and :func:`DataFrameNaFunctions.replace` areal...

2019-08-04 00:32:55 1693

原创 PySpark---SparkSQL中的DataFrame(三)

1.filter(condition)"""Filters rows using the given condition.:func:`where` is an alias for :func:`filter`.:param condition: a :class:`Column` of :class:`types.BooleanType` or a string of SQL ...

2019-08-03 12:41:08 456

原创 PySpark---SparkSQL中的DataFrame(二)

1.colRegex(colName):"""Selects column based on the column name specified as a regex and returns itas :class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()# 这里注意`的使用df.select(df.colRegex("`(grad...

2019-08-01 17:29:29 619

原创 最近实践1---hive2.x参数

hive.exec.compress.output=false mapreduce.output.fileoutputformat.compress=false hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat mapred.max.spl...

2019-08-01 13:11:25 222

原创 PySpark---SparkSQL中的DataFrame(一)

DataFrame是按照列名来组织数据的分布式数据集,是SparkSQL最重要的抽象。由于基于DataFrame的算法在性能和优化的余地上(Tungstun和Catalyst)有更大的空间,因此,现在Spark里基于DataFrame的机器学习库ml及Structured Streaming都采用这种数据结构。而且未来spark基于RDD的机器学习库mllib不会再更新,最新的算法都采用基于Dat...

2019-08-01 13:01:57 562

原创 HBase 2.0 API 初步窥探

话不多说直接上代码package Base;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;...

2019-07-27 17:06:44 395

原创 PySpark ---- Sparkcontext编程入口

SparkContext是PySpark的编程入口,作业的提交,任务的分发,应用的注册都会在SparkContext中进行。一个SparkContext实例代表着和Spark的一个连接,只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast广播变量。 1.创建方式 1.1 通过SparkSession获取SparkContext对...

2019-07-14 10:15:48 2516

转载 Python: 浅淡Python中的属性(property)

起源:项目过程中需要研究youtube_dl这个开源组件,翻阅其中对类的使用,对比c#及Delphi中实现,感觉Python属性机制挺有意思。区别与高级编程语言之单一入口,在类之属性这一方面,它随意的太多,以致于习惯了高级语言的严谨,对如此随意心里倒是有些不安。也难怪,因为其数据类型弱限制性,往往一个函数返回了一个结果,追溯此返回值类型,有时需要费上许多工夫!我不是随意的人,但随意起来我还...

2019-07-07 22:17:40 229

原创 PySpark----Transformation操作

1.cache()使用默认的缓存级别MEMORY_ONLY将数据进行持久化持久化级别由如下的取值:可以调用rdd上的getStorageLevel获取当前rdd对应的持久化级别from pyspark import *import numpy as nprdd = sc.parallelize(np.arange(10),3)rdd.getStorageLevel()r...

2019-07-07 22:09:15 662

原创 PySpark----Action操作

目录1.aggregate(zeroValue, seqOp, combOp)2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )3.collect方法4.collectAsMap()5.count()方法6.countApprox(timeout, conf...

2019-07-07 12:36:03 624

转载 Spark与Pandas中DataFrame对比(详细)

PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据延迟机制not laz...

2019-06-27 18:55:50 834

原创 Hive--参数优化

一、Map阶段的优化(Mapphase)1.Map数的计算公式为:num_Map_tasks=max[${Mapred.min.spilt.size},min(${dfs.block.size},${Mapred.max.split.size})]Mapred.min.spilt.size指的是数据的最小分割单元大小(默认为1B)Mapred.max.split.size指的是数据...

2019-06-20 14:42:32 238

原创 hive导出查询文件到本地文件

通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种:1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive中,一般情况下通过use my_hive_db;set hive.mer...

2019-05-20 19:22:49 1312

原创 hive的中的sql的执行顺序

在hive的执行语句当中的执行查询的顺序:这是一条sql:select … from … where … group by … having … order by …执行顺序:from … where … select … group by … having … order by …其实总结hive的执行顺序也是总结mapreduce的执行顺序:MR程序的执行顺序:m...

2019-05-18 01:40:02 1300

原创 awk--正则匹配列中指定的字符

正则表达式的特点正则表达式由以下内容组合而成:普通字符,例如空格、下划线、A-Z、a-z、0-9。 可以扩展为普通字符的元字符,它们包括: (.) 它匹配除了换行符外的任何单个字符。 (*) 它匹配零个或多个在其之前紧挨着的字符。 [ character(s) ] 它匹配任何由其中的字符/字符集指定的字符,你可以使用连字符(-)代表字符区间,例如 [a-f]、[1-5]等。 ...

2019-05-16 19:50:06 5257

转载 Hive常用函数大全(二)(窗口函数、分析函数、增强group)

窗口函数与分析函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询窗口函数FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行...

2019-05-13 16:02:27 2488

转载 Hive常用函数大全(一)(关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型)

测试数据集:create external table if not exists order_detail(user_id string,device_id string,user_type string,price double,sales int)row format delimited fields terminated by '\t'lines terminated...

2019-05-13 15:53:57 256

转载 Hive 时间日期处理总结

select day -- 时间 ,date_add(day,1 - dayofweek(day)) ...

2019-04-28 00:11:37 841

转载 总结复制Hive表结构和数据的方法

在使用Hive的过程中,复制表结构和数据是很常用的操作,本文介绍两种复制表结构和数据的方法。1、复制非分区表表结构和数据Hive集群中原本有一张bigdata17_old表,通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表:CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_o...

2019-04-27 23:42:02 536

原创 Python基础教程(一)

Python基础教程一、简介Python的历史和为什么学习Python这里就不在赘述了。处于工作原因,对Python要进行深入的学习和研究,这里主要针对的就是Python具有的丰富和强大的库。Python目前有两个版本,Python2和Python3。现阶段大部分公司用的是Python2,但是这里我基于Python3来记录的。Life is shot, you need Pytho...

2019-04-23 00:42:29 16298 3

原创 Hive----Hive的优化常用小结

基础回顾 H i v e 数据管理 hive的表本质就是Hadoop的目录/文件 hive默认表存放路径一般都是在你工作目录的hive目录里面,按表名做文件夹分开,如果你 有分区表的话,分区值是子文件夹,可以直接在其它的M/R job里直接应用这部分数据 Name HDFS Directory Table mobile_user...

2019-04-06 15:13:06 372

原创 Spark2.1 内存管理详解

本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Ex...

2019-04-05 20:12:07 1173 1

转载 关于ConcurrentHashMap原理分析以及线程安全性问题

ConcurrentHashMap与HashTable区别?HashTableput()源代码从代码可以看出来在所有put 的操作的时候 都需要用 synchronized 关键字进行同步。并且key 不能为空。这样相当于每次进行put 的时候都会进行同步 当10个线程同步进行操作的时候,就会发现当第一个线程进去 其他线程必须等待第一个线程执行完成,才可以进行下去。性能特别差...

2019-03-28 11:18:49 222

原创 Spark之坑坑坑----troubleshooting

Spark之troubleshooting1.yarn-client模式引起网卡流量激增问题?   一个Driver和Executor中的task频繁进行通信,通信消息特别多,通信的频率特别高,运行完一个stage,接着运行下一个stage,又是频繁的通信。   解决:yarn-cluster     ...

2019-03-26 00:45:02 268

原创 Spark性能调优----Shuffle调优

 Spark性能调优之Shuffle调优   • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。   • shuffle过程中常出现的问题常见问题一:reduce oom?    问题...

2019-03-26 00:38:04 213

原创 Spark性能调优----解决数据倾斜(对以前的记录的补充总结吧)

数据倾斜七种解决方案                                             shuffle的过程最容易引起数据倾斜1.使用Hi...

2019-03-26 00:35:14 247

原创 Spark性能调优----代码方面的优化

 Spark性能调优之代码方面的优化1.避免创建重复的RDD    对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(cache,persist,checkpoint)如何选择一种最合适的持久化策略?    默认MEMORY_O...

2019-03-26 00:29:09 244

原创 Spark性能调优----合理设置并行度

Spark性能调优之合理设置并行度1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置...

2019-03-26 00:27:10 1250

原创 Spark性能调优----JVM调优

 Spark性能调优之JVM调优通过一张图让你明白以下四个问题               1.JVM GC机制,堆内存的组成               2.Spark的调优为什么会和JVM的调优会有关联?--因为...

2019-03-26 00:17:16 318

原创 Spark数据本地化----如何达到性能调优的目的

 Spark数据本地化-->如何达到性能调优的目的1.Spark数据的本地化:移动计算,而不是移动数据2.Spark中的数据本地化级别:TaskSetManager 的 Locality Levels 分为以下五个级别:PROCESS_LOCAL NODE_LOCALNO_PREF   RACK_LOC...

2019-03-26 00:13:17 218

原创 Spark性能调优之资源分配

性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考...

2019-03-25 20:56:53 410

原创 Hive---关于Json格式的处理方法

hive中创建hive-json格式的表及查询在hive中对于json的数据格式,可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构,这样就可以直接查询,实战如下(hive-2.3.0版本):1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":1...

2019-03-19 14:24:56 3530

原创 Hive性能优化(全面)解决数据倾斜等问题

Hive性能优化(全面)1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数...

2019-03-01 00:58:03 360

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除