XiaodunLP-CSDN博客

转载 hbase-default.xml参数解读

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration>  <property...

2019-09-09 23:40:12 839

原创 Hbase--put、BufferedMutator、get

Hbase写入数据的几种方式我们总结一下hbase几种写入常见的方式，以及涉及的应用场景，另外再总结一下其中涉及到的一些原理知识。hbase一般的插入过程都使用HTable对象，将数据封装在Put对象中，Put在new创建的时候需要传入rowkey，并将列族，列名，列值add进去。然后HTable调用put方法，通过rpc请求提交到Regionserver端。写入的方式可以分为以下几种单条...

2019-08-31 08:04:12 2216 1

原创 jstat命令查看jvm的GC情况

jstat命令查看jvm的GC情况（以Linux为例） jstat命令可以查看堆内存各部分的使用量，以及加载类的数量。命令的格式如下： jstat [-命令选项] [vmid] [间隔时间/毫秒] [查询次数] 注意！！！：使用的jdk版本是jdk8. 类加载统计：　Loaded:加载cla...

2019-08-28 20:27:24 826

转载步步深入：MySQL架构总览->查询执行流程->SQL解析顺序

前言：　　一直是想知道一条SQL语句是怎么被执行的，它执行的顺序是怎样的，然后查看总结各方资料，就有了下面这一篇博文了。　　本文将从MySQL总体架构--->查询执行流程--->语句执行顺序来探讨一下其中的知识。一、MySQL架构总览：　　架构最好看图，再配上必要的说明文字。　　下图根据参考书籍中一图为原本，再在其上添加上了自己的理解。 ...

2019-08-19 22:46:52 500

原创 LInux安装ficonfig和rz,sz命令

安装ifconfig首先 ls /sbin/ifconfig ,确认是否是环境变量没有ifconfig引起的如果确定了系统是没有安装ifconfig命令的,进行如下操作来安装:yum install ifconfig此时出现下图:这个时候,我们使用yum search ifconfig来搜索下ifconfig相关资源查看ifconfig匹配的是net-tools.x...

2019-08-15 09:15:48 749

原创 linux文件句柄数

1、问题阐述：toomanyopenfiles：顾名思义即打开过多文件数。不过这里的files不单是文件的意思，也包括打开的通讯链接(比如socket)，正在监听的端口等等，所以有时候也可以叫做句柄(handle)，这个错误通常也可以叫做句柄数超出系统限制。2、产生的原因：经常在使用linux的时候出现，大多数情况是由于程序没有正常关闭一些资源引起的，所以出现这种情况，请检查...

2019-08-10 12:21:04 744

原创 Linux能同时启动多少个线程

默认情况下：主线程＋辅助线程＋<253个自己的线程<＝255含主线程和一个辅助线程，最多255个，即一个用户只能生成253个线程。Linux最大线程数限制及当前线程数查询：1、总结系统限制有：/proc/sys/kernel/pid_max #查系统支持的最大线程数，一般会很大，相当于理论值/proc/sys/kernel/thread-maxmax_user_...

2019-08-10 11:18:16 1374

原创 PySpark---SparkSQL中的DataFrame(四)

1.replace(to_replace, value=_NoValue, subset=None)"""Returns a new :class:`DataFrame` replacing a value with another value.:func:`DataFrame.replace` and :func:`DataFrameNaFunctions.replace` areal...

2019-08-04 00:32:55 2848

原创 PySpark---SparkSQL中的DataFrame(三)

1.filter(condition)"""Filters rows using the given condition.:func:`where` is an alias for :func:`filter`.:param condition: a :class:`Column` of :class:`types.BooleanType` or a string of SQL ...

2019-08-03 12:41:08 1038

原创 PySpark---SparkSQL中的DataFrame(二)

1.colRegex(colName):"""Selects column based on the column name specified as a regex and returns itas :class:`Column`."""用正则表达式的方式返回我们想要的列。df.show()# 这里注意`的使用df.select(df.colRegex("`(grad...

2019-08-01 17:29:29 1190

原创最近实践1---hive2.x参数

hive.exec.compress.output=false mapreduce.output.fileoutputformat.compress=false hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat mapred.max.spl...

2019-08-01 13:11:25 446

原创 PySpark---SparkSQL中的DataFrame(一)

DataFrame是按照列名来组织数据的分布式数据集，是SparkSQL最重要的抽象。由于基于DataFrame的算法在性能和优化的余地上(Tungstun和Catalyst)有更大的空间，因此,现在Spark里基于DataFrame的机器学习库ml及Structured Streaming都采用这种数据结构。而且未来spark基于RDD的机器学习库mllib不会再更新，最新的算法都采用基于Dat...

2019-08-01 13:01:57 1672

原创 HBase 2.0 API 初步窥探

话不多说直接上代码package Base;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;...

2019-07-27 17:06:44 622

原创 PySpark ---- Sparkcontext编程入口

SparkContext是PySpark的编程入口，作业的提交，任务的分发，应用的注册都会在SparkContext中进行。一个SparkContext实例代表着和Spark的一个连接，只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast广播变量。 1.创建方式 1.1 通过SparkSession获取SparkContext对...

2019-07-14 10:15:48 6804

转载 Python: 浅淡Python中的属性(property)

起源：项目过程中需要研究youtube_dl这个开源组件，翻阅其中对类的使用，对比c#及Delphi中实现，感觉Python属性机制挺有意思。区别与高级编程语言之单一入口，在类之属性这一方面，它随意的太多，以致于习惯了高级语言的严谨，对如此随意心里倒是有些不安。也难怪，因为其数据类型弱限制性，往往一个函数返回了一个结果，追溯此返回值类型，有时需要费上许多工夫！我不是随意的人，但随意起来我还...

2019-07-07 22:17:40 441

原创 PySpark----Transformation操作

1.cache()使用默认的缓存级别MEMORY_ONLY将数据进行持久化持久化级别由如下的取值：可以调用rdd上的getStorageLevel获取当前rdd对应的持久化级别from pyspark import *import numpy as nprdd = sc.parallelize(np.arange(10),3)rdd.getStorageLevel()r...

2019-07-07 22:09:15 1565

原创 PySpark----Action操作

目录1.aggregate(zeroValue, seqOp, combOp)2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )3.collect方法4.collectAsMap()5.count()方法6.countApprox(timeout, conf...

2019-07-07 12:36:03 1586

转载 Spark与Pandas中DataFrame对比（详细）

PandasSpark工作方式单机single machine tool，没有并行机制parallelism不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数据延迟机制not laz...

2019-06-27 18:55:50 1170

原创 Hive--参数优化

一、Map阶段的优化（Mapphase）1.Map数的计算公式为：num_Map_tasks=max[${Mapred.min.spilt.size},min(${dfs.block.size},${Mapred.max.split.size})]Mapred.min.spilt.size指的是数据的最小分割单元大小（默认为1B）Mapred.max.split.size指的是数据...

2019-06-20 14:42:32 568

原创 hive导出查询文件到本地文件

通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候我们可以利用hive来生成统计的中间文件（比源文件小的多的）方法有如下2种：1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录：生成的文件数和redurcer的数目的一样的在hive中，一般情况下通过use my_hive_db;set hive.mer...

2019-05-20 19:22:49 2354

原创 hive的中的sql的执行顺序

在hive的执行语句当中的执行查询的顺序：这是一条sql:select … from … where … group by … having … order by …执行顺序：from … where … select … group by … having … order by …其实总结hive的执行顺序也是总结mapreduce的执行顺序：MR程序的执行顺序：m...

2019-05-18 01:40:02 2266

原创 awk--正则匹配列中指定的字符

正则表达式的特点正则表达式由以下内容组合而成：普通字符，例如空格、下划线、A-Z、a-z、0-9。可以扩展为普通字符的元字符，它们包括： (.) 它匹配除了换行符外的任何单个字符。 (*) 它匹配零个或多个在其之前紧挨着的字符。 [ character(s) ] 它匹配任何由其中的字符/字符集指定的字符，你可以使用连字符(-)代表字符区间，例如 [a-f]、[1-5]等。 ...

2019-05-16 19:50:06 24165

转载 Hive常用函数大全（二）（窗口函数、分析函数、增强group）

窗口函数与分析函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询窗口函数FIRST_VALUE：取分组内排序后，截止到当前行，第一个值LAST_VALUE：取分组内排序后，截止到当前行，最后一个值LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行...

2019-05-13 16:02:27 3080

转载 Hive常用函数大全（一）（关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型）

测试数据集：create external table if not exists order_detail(user_id string,device_id string,user_type string,price double,sales int)row format delimited fields terminated by '\t'lines terminated...

2019-05-13 15:53:57 490

转载 Hive 时间日期处理总结

select day -- 时间 ,date_add(day,1 - dayofweek(day)) ...

2019-04-28 00:11:37 2168

转载总结复制Hive表结构和数据的方法

在使用Hive的过程中，复制表结构和数据是很常用的操作，本文介绍两种复制表结构和数据的方法。1、复制非分区表表结构和数据Hive集群中原本有一张bigdata17_old表，通过下面的SQL语句可以将bigdata17_old的表结构和数据复制到bigdata17_new表：CREATE TABLE bigdata17_new AS SELECT * FROM bigdata17_o...

2019-04-27 23:42:02 1014

原创 Python基础教程（一）

Python基础教程一、简介Python的历史和为什么学习Python这里就不在赘述了。处于工作原因，对Python要进行深入的学习和研究,这里主要针对的就是Python具有的丰富和强大的库。Python目前有两个版本，Python2和Python3。现阶段大部分公司用的是Python2，但是这里我基于Python3来记录的。Life is shot, you need Pytho...

2019-04-23 00:42:29 23075 5

原创 Hive----Hive的优化常用小结

基础回顾 H i v e 数据管理 hive的表本质就是Hadoop的目录/文件 hive默认表存放路径一般都是在你工作目录的hive目录里面，按表名做文件夹分开，如果你有分区表的话，分区值是子文件夹，可以直接在其它的M/R job里直接应用这部分数据 Name HDFS Directory Table mobile_user...

2019-04-06 15:13:06 646

原创 Spark2.1 内存管理详解

本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuffle、JVM 等相关概念。在执行 Spark 的应用程序时，Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Ex...

2019-04-05 20:12:07 1426 1

转载关于ConcurrentHashMap原理分析以及线程安全性问题

ConcurrentHashMap与HashTable区别？HashTableput()源代码从代码可以看出来在所有put 的操作的时候都需要用 synchronized 关键字进行同步。并且key 不能为空。这样相当于每次进行put 的时候都会进行同步当10个线程同步进行操作的时候，就会发现当第一个线程进去其他线程必须等待第一个线程执行完成，才可以进行下去。性能特别差...

2019-03-28 11:18:49 438

原创 Spark之坑坑坑----troubleshooting

Spark之troubleshooting1.yarn-client模式引起网卡流量激增问题？一个Driver和Executor中的task频繁进行通信，通信消息特别多，通信的频率特别高，运行完一个stage，接着运行下一个stage，又是频繁的通信。解决：yarn-cluster ...

2019-03-26 00:45:02 595

原创 Spark性能调优----Shuffle调优

Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输，netty在进行网络传输的过程会申请堆外内存（netty是零拷贝），所以使用了堆外内存。 • shuffle过程中常出现的问题常见问题一：reduce oom? 问题...

2019-03-26 00:38:04 464

原创 Spark性能调优----解决数据倾斜(对以前的记录的补充总结吧)

数据倾斜七种解决方案 shuffle的过程最容易引起数据倾斜1.使用Hi...

2019-03-26 00:35:14 443

原创 Spark性能调优----代码方面的优化

Spark性能调优之代码方面的优化1.避免创建重复的RDD 对性能没有问题，但会造成代码混乱 2.尽可能复用同一个RDD，减少产生RDD的个数 3.对多次使用的RDD进行持久化（cache,persist,checkpoint）如何选择一种最合适的持久化策略？默认MEMORY_O...

2019-03-26 00:29:09 505

原创 Spark性能调优----合理设置并行度

Spark性能调优之合理设置并行度1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度！当分配完所能分配的最大资源了，然后对应资源去调节程序的并行度，如果并行度没有与资源相匹配，那么导致你分配下去的资源都浪费掉了。同时并行运行，还可以让每个task要处理的数量变少（很简单的原理。合理设置...

2019-03-26 00:27:10 2095

原创 Spark性能调优----JVM调优

Spark性能调优之JVM调优通过一张图让你明白以下四个问题 1.JVM GC机制，堆内存的组成 2.Spark的调优为什么会和JVM的调优会有关联？--因为...

2019-03-26 00:17:16 584

原创 Spark数据本地化----如何达到性能调优的目的

Spark数据本地化-->如何达到性能调优的目的1.Spark数据的本地化：移动计算，而不是移动数据2.Spark中的数据本地化级别：TaskSetManager 的 Locality Levels 分为以下五个级别：PROCESS_LOCAL NODE_LOCALNO_PREF RACK_LOC...

2019-03-26 00:13:17 430

原创 Spark性能调优之资源分配

性能优化王道就是给更多资源！机器更多了，CPU更多了，内存更多了，性能和速度上的提升，是显而易见的。基本上，在一定范围之内，增加资源与性能的提升,是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第一步，我觉得，就是要来调节最优的资源配置；在这个基础之上，如果说你的spark作业，能够分配的资源达到了你的能力范围的顶端之后，无法再分配更多的资源了，公司资源有限；那么才是考...

2019-03-25 20:56:53 723

原创 Hive---关于Json格式的处理方法

hive中创建hive-json格式的表及查询在hive中对于json的数据格式，可以使用get_json_object或json_tuple先解析然后查询。也可以直接在hive中创建json格式的表结构，这样就可以直接查询，实战如下(hive-2.3.0版本)：1. 准备数据源将以下内容保存为test.txt{"student":{"name":"king","age":1...

2019-03-19 14:24:56 4420

原创 Hive性能优化（全面）解决数据倾斜等问题

Hive性能优化（全面）1.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF，不怕数...

2019-03-01 00:58:03 620

空空如也

空空如也