RayfunC的博客

等待, 寻找机会, 一举颠覆

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Hive 调优详解

1.fetch属性 在旧版本的 Hive 中, hive-default.xml.template文件中 hive.fetch.task.conversion 默认是 minimal, 修改为 more 后, 全局查找、字段查找、limit查找等都会直接执行而不会运行mapreduce. 新版本的...

2019-01-18 19:24:31

阅读数 508

评论数 0

吐血推荐 | 5+1款源代码管理笔记本(全平台)

废话不多说, 这些绝对是迄今为止最好用的代码片段管理笔记本, 效率神器

2019-01-18 17:20:06

阅读数 2571

评论数 0

RDD、DataFrame、DataSet对比与相互转换

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)  三者的共性 1、RDD、DataFrame、Dataset 全都是 spark 平台下的分布式弹性数据集,为处理超大型数据提供...

2019-01-30 15:54:18

阅读数 237

评论数 0

WIN+R快速打开windows自带工具

exe类 notepad    记事本    calc    计算器 control    控制面板    mstsc    远程桌面连接 explorer    资源管理器    taskmgr    任务管理器 resmon    资源监视器    perfmon    性能监视器 ...

2019-01-30 11:35:38

阅读数 53

评论数 0

Kafka 原理总结

概念 关键名词解释 生产过程分析 Broker 保存消息 Kafka 集群为什么需要集成 zookeeper 消费者组 消费方式 Consumer API 的使用 Producer拦截器(interceptor) Kafka Streams Kafka 与 Flume 概念 ...

2019-01-24 14:24:53

阅读数 370

评论数 0

Java快速排序

快排 快速排序(Quicksort)是对冒泡排序的一种改进。由 东尼·霍尔(C. A. R. Hoare) 在1962年提出。 在平均状况下,排序 n 个项目要 Ο(n log n) 次比较。在最坏状况下需要 Ο(n2) 次比较(不常见) 特点 通常明显比其他 Ο(n log n) 算法...

2019-01-24 09:07:40

阅读数 334

评论数 0

JVM 结构解析

JVM内存区域分为方法区、虚拟机栈、本地方法栈、堆、程序计数器 方法区:也称"永久代” 、“非堆”, 它用于存储虚拟机加载的类信息、常量、静态变量、是各个线程共享的内存区域 虚拟机栈:描述的是 Java 方法执行的内存模型:每个方法被执行的时候 都会创建一个“栈帧”用于存储局部变量表...

2019-01-24 08:44:23

阅读数 49

评论数 0

Spark 应用程序的执行过程

1)构建 Spark Application 的运行环境(启动 SparkContext),SparkContext 向资源管理器(可以是 Standalone、Mesos 或YARN)注册并申请运行 Executor 资源; 2)资源管理器分配 Executor 资源并启动 Standalon...

2019-01-24 08:34:00

阅读数 189

评论数 0

Spark 使用 parquet 文件存储格式

1)如果说 HDFS 是大数据时代分布式文件系统首选标准,那么 parquet 则是整个大数据时代文件存储格式实时首选标准。 2)速度更快:从使用 spark sql 操作普通文件 CSV 和 parquet 文件速度对比上看,绝大多数情况会比使用 csv 等普通文件速度提升10倍左右,在一些普...

2019-01-24 08:31:11

阅读数 688

评论数 1

Linux 文件恢复

避免文件误删最有效的方法是开启回收站 传送门:Linux开启回收站 如果不小心误删了文件怎么办呢? 可用使用 foremost 工具来尝试恢复 首先需要安装工具, 可以使用以下命令 # sudo yum install https://forensics.cert.org/centos/...

2019-01-22 21:27:19

阅读数 220

评论数 3

Linux 开启回收站

建议开启回收站功能, 防止误删, 保证数据的安全性 无脑开启 完全开启 无脑开启 vim /.bashrc 在最后添加以下代码 mkdir -p ~/.trash alias rm=trash alias r=trash alias rl='ls ~/.trash' alias ur=...

2019-01-22 20:43:28

阅读数 160

评论数 0

使用 /etc/profile.d 而不是 /etc/profile 来配置环境变量 Linux

在 /etc/profile 这个文件中有这么一段 shell, 会在每次启动时自动加载 profile.d 下的每个配置 if [ -d /etc/profile.d ]; then for i in /etc/profile.d/*.sh; do if [ -r $i ]; t...

2019-01-22 18:55:26

阅读数 585

评论数 0

Flume 监控 Ganglia 组件的安装

步骤1: 安装 httpd 和 php sudo yum -y install httpd php 步骤2: 安装其他依赖 sudo yum -y install rrdtool perl-rrdtool rrdtool-devel sudo yum -y install apr-de...

2019-01-22 11:25:03

阅读数 27

评论数 0

大数据常用端口号

Hadoop 50070:HDFS WEB UI 端口 50090: Secondary NameNode 端口 50010: dfs.datanode.address 8020 : 高可用的 HDFS RPC 端口 ...

2019-01-21 21:03:38

阅读数 77

评论数 0

Impala,Hive,Hbase,关系数据库区别

Impala简介 Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。 Impala将相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)用作Apache Hive,为面向...

2019-01-21 20:05:53

阅读数 645

评论数 0

Flume 参数调优

Source 增加Source个数(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。 例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个 Source 以保证 Source 有足够的能力获取到新产生的数据...

2019-01-21 19:50:17

阅读数 160

评论数 0

Flume 自定义 Source

Source 是负责接收数据到 Flume Agent 的组件 Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy 官...

2019-01-21 19:35:21

阅读数 650

评论数 0

Linux 目录跳转工具 autojump 安装

1. 把用户添加到sudoers中 /etc/sudoers 2. 更改yum 源 备份自带的yum源 [root@localhost ~]# mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bac...

2019-01-21 11:10:55

阅读数 565

评论数 0

Hive 中的 order by、sort by、distribute by 和 cluster by

order by 全局排序,默认升序, Hive在运行MR程序时会指定Reducer个数为1 默认Reducer个数为-1, 根据运行时HQL语句解析结果指定 示例: 1)查询员工信息按工资升序排列 hive (default)> select * from ...

2019-01-17 13:29:38

阅读数 318

评论数 0

Hive 中 formatted 的使用

select * from 表名: 查询该表名的所有字段记录 desc formatted 表名: 查看该表的结构,而并查看不了表中的数据 示例: 创建一个表 create table if not exists student( id int, name string ) row format...

2019-01-16 19:32:48

阅读数 430

评论数 0

提示
确定要删除当前文章?
取消 删除