自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

原创 Markdown帮助文档

一、Markdown表格-换行、合并单元格 1、表格中对其、换行处理 1.1 一般我们都会这样用表格如下: |排名|姓名| |--|--| |第一名|隔壁老王| |第二名|隔壁小王、隔壁小小王| 实现效果图: 排名 姓名 第一名 隔壁老王 ...

2019-07-08 15:47:09 394 1

原创 Spark深入解读(十二)---- 有向无环图DAG(代码及图解)

目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树...

2017-01-03 18:21:54 16371 1

原创 Hive教程(十一)---整合HBASE

目录 6.4.1 HBase与Hive的对比 6.4.2 HBase与Hive集成使用 6.4.1 HBase与Hive的对比 Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清...

2020-05-15 23:32:45 59 0

原创 Hive教程(十)---JDBC的连接

目录 10.1 创建maven项目添加依赖 10.2 JAVAAPI 10.1 创建maven项目添加依赖 Jdbc是jdk开发的操作数据库的一套标准API(接口方法) Java提供的一套操作数据库的标准API <dependencies> <dependency> ...

2020-05-15 23:28:26 39 0

原创 Hive教程(八)---压缩和存储
原力计划

目录 8.1 Hadoop源码编译支持Snappy压缩 8.2 Hadoop压缩配置 8.3 开启Map输出阶段压缩 8.4 开启Reduce输出阶段压缩 8.5 文件存储格式 8.6 存储和压缩结合 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 CentOS联网 ...

2020-05-15 23:18:15 62 0

原创 Mysql案例(二)---列转行

列转行 SELECT GROUP_CONCAT(shop_name),product_id from shopproduct GROUP BY product_id;

2020-05-14 13:04:17 46 0

原创 Hive教程(九)---企业级调优
原力计划

目录 前述 9.1 Fetch抓取 9.2 本地模式 9.3 表的优化 9.4 数据倾斜 9.5 并行执行 9.6 严格模式 9.7 JVM重用 9.8 推测执行 9.9 压缩 9.10 执行计划(Explain) (搜索) 前述 查询速度 效率 分区 分桶表 特殊的文件格式 列式存储的文件...

2020-05-13 22:27:54 66 0

原创 Hive教程(七)---函数
原力计划

目录 7.1系统内置函数 7.2 自定义函数 7.3 自定义UDF函数 7.4 json解析函数:表生成函数 7.1系统内置函数 查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function upper; ...

2020-05-12 23:10:53 34 0

原创 Hive教程(十四)---hive常用命令备份

insert overwrite directory ‘/user/yuhui/table12’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ select

2020-05-12 10:00:28 53 0

原创 Hive教程(六)---查询
原力计划

目录 6.1 基本查询(Select…From) 6.2 Where语句 6.3 分组 6.4 Join语句 6.5 排序 6.6 分桶及抽样查询 6.7 其他常用查询函数 6.1 基本查询(Select…From) 6.1.1 全表和特定列查询 全表查询 hive (default)>...

2020-05-11 07:44:42 91 0

原创 大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库
原力计划

目录 一、需求 二、思路 三、解决方案 一、需求 1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G 2、 二、思路 三、解决步骤

2020-05-10 18:34:53 138 1

原创 Hive教程(五)---DML(Data Manipulation Language)数据操作

目录 5.1 数据导入 5.2 数据导出 5.3 清除表中数据(Truncate) 5.1 数据导入 5.1.1 向表中装载数据(Load) 1.语法 hive> load data [local] inpath '/opt/module/datas/student.txt�...

2020-05-09 00:41:40 85 0

原创 Hive教程(四)---DDL(Data Definition Language)
原力计划

目录 4.1 创建数据库 4.2 查询数据库 4.3 修改数据库 4.4 删除数据库 4.5 创建表 4.6 分区表 4.7 修改表(结构) 4.8 删除表 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive ...

2020-05-09 00:30:00 147 0

原创 Hive教程(三)---Hive数据类型
原力计划

目录 3.1基本数据类型 3.2集合数据类型 3.3类型转化 表1-1 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte...

2020-05-08 23:46:11 79 0

原创 Hive教程(二)---hive的安装
原力计划

目录 2.1 Hive安装地址 2.2 Hive的集群安装部署 2.3 将本地文件导入Hive案例 2.4 MySql安装 2.5 Hive元数据配置到MySql 2.6 HiveJDBC访问 2.7 Hive常用交互命令 2.8 Hive其他命令操作 2.9 Hive常见属性配置 2.1 Hi...

2020-05-08 23:30:39 70 0

原创 Hive教程(一)---hive入门
原力计划

目录 一、hive入门 1.1什么是Hive        Hive:由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)。        本质是:将Hive SQL转化成MapRedu...

2020-05-08 22:46:14 126 0

原创 Mysql教程(十四)---窗口函数

目录 1、MySQL窗口函数简介 2、窗口函数如何使用 3、序号函数操作 1、MySQL窗口函数简介        MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。 1)什么叫窗口?   ...

2020-05-05 20:52:44 110 0

原创 Mysql教程(十三)---CASE WHEN

目录 1、简单函数 2、搜索函数 3、案例分析 4、聚合函数 sum 配合 case when 1、简单函数 CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END: 枚举这个字段所有可能的值* -- 简单函数 CASE ...

2020-05-05 17:34:10 125 0

原创 Mysql教程(十一)---内连接-外连接-全连接
原力计划

目录 1、JOIN 按照功能描述 2、内连接 3、左外连接 4、右外连接 1、JOIN 按照功能描述 JOIN 按照功能大致分为如下三类: INNER JOIN(内连接,或等值连接):获取两个表中字段匹配关系的记录。 LEFT JOIN(左连接):获取左表所有记录,即使右表没有对应匹配的记录。 ...

2020-05-05 10:26:48 207 0

原创 Mysql教程(十)---子查询

目录 1、子查询功能和约束 2、需求:找出大于平均值得房屋 3、需求:在原有列中加入,房屋平均价格列 4、需求:朝向和卫生间房屋分组的平均价格大于总平均价格 5、需求:相同卧室个数的大于,大于平均价格 6、EXIST与NOT EXIST 备注:Mysql教程(一)—本教程数据准备 1、子查询功能...

2020-05-04 19:34:13 139 0

原创 Mysql教程(九)---分组

目录 1、数据展示 2、分组的意义 3、HAVING过滤分组 4、分组排序及执行顺序 备注:Mysql教程(一)—本教程数据准备 1、数据展示 2、分组的意义及约束 分组的意义 1)分组时候,分组的字段一定要出现在select 字段中 2)分组时候,select 可以出现聚合函数 分组的约束 1...

2020-05-04 13:47:11 475 0

原创 Mysql教程(八)---常用的聚集函数

目录 1、数据展示 2、平均及坑 3、统计count及坑 4、distinct什么时候用 5、其他函数 备注:Mysql教程(一)—本教程数据准备 1、数据展示 1、平均及坑 1)avg 是一个数字计算函数 2)如果有null ,则对null值列去掉之后再开始计算 比如:1,2,3,4, 5,...

2020-05-04 12:13:19 86 0

原创 Mysql教程(七)---高效的数据处理函数

目录 1、时间日期处理 2、数值处理函数 3、文本处理函数 备注:Mysql教程(一)—本教程数据准备 1、时间日期处理 CurDate() 返回当前日期 CurTime() 返回当前时间 Date() 返回日期时间的日期部分 DateDiff() 计算两个日期之差 Day() 返回一个日...

2020-05-04 11:34:49 1143 0

原创 Mysql教程(六)---计算字段

目录 1、concat 2、别名 3、计算 1、concat -- 通过CONCAT将过多字符串连接 select *, CONCAT(company,'(',city,code,')') from comcat_text; -- 如果有拼接null 则全...

2020-05-04 11:18:50 189 0

原创 Mysql教程(五)---SQL正则表达式

目录 1、SQL正则表达式列表 2、SQL正则表达式案例 备注:Mysql教程(一)—本教程数据准备 1、SQL正则表达式列表 备注: a1竖线a2 为: a1|a2 。由于Markdown中竖线为列的分隔符 REGEXP 说明 ^ 匹配输入字符串的开始位置。如果设置了 Reg...

2020-05-04 11:00:40 180 0

原创 Mysql教程(四)---过滤数据

目录 1、WHERE过滤 2、BETWEEN 3、NULL空值 4、多过滤条件组合 5、IN与NOT IN过滤 6、LIKE与通配符过滤 1、WHERE过滤 select * from house_prices where Home >=10 and Home <=20; -...

2020-05-04 10:34:58 382 1

原创 Mysql教程(三)---SELECT基础检索

目录 1、检索指定列列 2、星符号初体验 3、DISTINCT 去重 4、Order by 5、Limit 1、检索指定列列 指定列名称,列的顺序为自己指定 select Home , price , SqFt , Bedrooms ,Neighborhood from house_prices...

2020-05-04 09:49:09 287 0

原创 Mysql教程(一)---本教程数据准备

目录 1、house_prices 2、comcat_text 3、info Mysql教程的所有表格和数据陆续加载 1、house_prices CREATE TABLE `house_prices` ( `Home` int NOT NULL COMMENT '房子编号...

2020-05-04 09:18:46 462 0

原创 iTerm2教程

目录 一、iTerm2 配色方案(oh-my-zsh& Powerline) 一、iTerm2 配色方案(oh-my-zsh& Powerline) 效果图 不要急,按照辉哥的步骤一步一步来第一步: 第一步 先去官网下载iTerm2,打开后是全黑色的背景。 打开iTerm2的...

2020-03-28 18:02:13 359 0

原创 Spark深入解读(五)---- SparkStandalone模式集群部署和任务启动方式
原力计划

目录 架构说明(standalone模式) 架构说明(standalone模式) standalone模式是Spark自带的分布式集群模式,不依赖其他的资源调度框架 搭建步骤 下载spark安装包,下载地址:https://spark.apache.org/downloads.html ...

2020-03-18 15:47:49 114 0

原创 flume1.9保存文件到hdfs的错误解决

flume配置sink向hdfs中写入文件,在启动的时候遇到的报错问题 Failed to start agent because dependencies were not found in classpath. Error follows. java.lang.NoClassDefFound...

2020-03-05 21:19:03 303 0

原创 Spark深入解读(三)---- 工作模式及角色
原力计划

目录 一、角色描述 二、Local本地模式 三、standalone模式 四、spark on yarn 模式         1) Spark on yarn client模式         2) Spark ...

2020-02-23 00:35:04 1656 1

原创 Spark深入解读(二)---- 工作流程

Spark工作流程 1.使用Spark-submit提交代码至服务器上 2.创建SparkContext,在SparkContext初始化的时候会创建DAGScheduler和TaskScheduler 3.TaskScheduler会启动一个后台进程去集群Master注册Application...

2020-02-22 23:40:43 206 0

原创 Spark深入解读(一)---- 基本概念
原力计划

目录 一、Application 二、Job 三、DAG 四、Stage 五、Task 六、TaskSet 七、RDD 八、dependency 九、Shuffle 一、Application 使用SparkSubmit提交的个计算应用 一个Application中可以触发多次Action,...

2020-02-22 23:34:19 318 0

原创 Log4j入门教程

目录 一、log4j简介 二、log4j配置文件 三、配置语法 四、代码中使用log4j记录日志 五、典型配置示例 一、log4j简介        Log4j是一个用于在java系统中记录日志的框架!Log4j由三个重要的组件构成: 1.日志信息的优先...

2020-02-21 16:00:02 150 0

原创 Hive架构原理

1.用户接口:Client        CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive) 2.元数据:Metastore        元数据包括:表名、表...

2020-02-20 10:16:59 144 0

原创 Spark图计算GraphX介绍及实例

目录 一、GraphX介绍 二、GraphX实现分析 三、GraphX实例 四、参考资料 一、GraphX介绍 1.1 GraphX应用背景        Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用...

2020-02-17 18:55:15 143 0

原创 Hadoop 2.8.5 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user:root问题解决

目录 一、问题 二、分析 三、解决方案两种 第一种方案 第二种方案 四、展示 一、问题 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user":root:supergroup:drwx-wx-...

2020-01-12 17:54:38 442 0

原创 大数据面试题(十)----Zookeeper 面试题

“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击 目录 1. 请简述ZooKeeper 的选举机制 2. 客户端对ZooKeeper 的Ser...

2020-01-10 18:38:12 2858 1

原创 大数据面试题(九)----Spark面试题

目录 1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper? 2. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么? 3. Spark on Mesos 中,什么是的粗粒度分配,什么是细粒度分配, 各自的优...

2020-01-06 21:33:36 821 1

提示
确定要删除当前文章?
取消 删除