自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

北京小辉

学习是一种享受,也是一种痛苦,更是一种回忆!!!

  • 博客(519)
  • 资源 (14)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Markdown帮助文档

一、Markdown表格-换行、合并单元格1、表格中对其、换行处理1.1 一般我们都会这样用表格如下:|排名|姓名||--|--||第一名|隔壁老王||第二名|隔壁小王、隔壁小小王|实现效果图:排名姓名第一名隔壁老王第二名隔壁小王、隔壁小小王1.2 当然这里也可以通过设置|:–|左对齐,|–:|右对齐比如下面的左对齐:|排名|姓名||:-...

2019-07-08 15:47:09 712 1

原创 Spark深入解读(十二)---- 有向无环图DAG(代码及图解)

目录:1、有向无环图2、代码结构3、代码学习步鄹及方法4、重点代码讲解5、代码展现6、运行结果1、有向无环图在图论中,如果一个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无环图(DAG图)。 因为有向图中一个点经过两种路线到达另一个点未必形成环,因此有向无环图未必能转化成树,但任何有向树均为有向无环图。 性质:有向无环图的生成树个数等于入度非零的节点的入度积。 2、代码结构

2017-01-03 18:21:54 18099 1

原创 程序员必知的几种软件架构模式

程序员必知的几种软件架构模式前序分层架构模式多层模式管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构(MVC)事件驱动架构微服务架构前序架构模式是对给定上下文的软件架构中常见问题的一种通用的可复用的解决方案。一种模式就是特定上下文的问题的一种解决方案。然而,很多开发者至今还对各种软件架构模式之间的差别搞不清,甚至对其所知甚少。大体上,主要有下面这几种架构模式:分层架构管道 - 过滤器架构客户端 - 服务器架构模型 - 视图 - 控制器架构事

2020-10-27 14:11:45 2297 5

原创 程序员正确看代码的方式

       正确的学习方法不仅能够让你事半功倍,也能够让你更加接近真理。初学一个工程的源代码,往往让初学者手足无措。下面的方法希望为初学者带来启示和便利。这个学习方式是基于编译环境和语言比较熟悉的基础上。最重要的是你要确定你要阅读的源代码是一份好代码。因为阅读代码就像阅读书籍。好代码让你终生受益,坏代码会给你留下阴影。       一.先把源代码安装起来编译起来,结合它的文档和手册,熟悉其功能和它的应用方式。如果遇到的是英文

2020-09-25 23:57:56 4167 3

原创 Druid的端口-接口-日志大全

在介绍之前,先列一下Druid各部分的端口号(在代码Main.java中):角色端口Coordinator8081Historical8083Broker8082Realtime8084Overlord8090MiddleManager8091Router8888下面是管理命令:查询某个Meta Datasource下所有的segments:GET http://<coordinator>:8081/druid

2020-09-23 11:16:49 221

原创 Presto的坑记录

问题1 Java版本:Unrecognized VM option 'ExitOnOutOfMemoryError'Did you mean 'OnOutOfMemoryError=<value>'?Error: Could not create the Java Virtual Machine.Error: A fatal exception has occurred. Program will exit.回答:Presto requires Java 8 Update 151

2020-09-15 15:33:10 442

转载 如何搭建AI数据中台?

       AI中台是一个用来构建大规模智能服务的基础设施,对企业需要的算法模型提供了分步构建和全生命周期管理的服务,让企业可以将自己的业务不断下沉为一个个算法模型,以达到复用、组合创新、规模化构建智能服务的目的。什么是AI数据中台?       在以往,企业数据管理都以传统的IT架构为基础。当技术部门为业务部门解决问题时,需要从业务需求的探查、技术壁垒的打通等从上到下各个方面来建设新系统。每个系统的建成都自成一体,也就是

2020-09-12 15:57:56 531

原创 CDH--HDFS和Yarn存储不足

备注:最近公司CDH集群中的某个DataNode存储一直报警,分析如下:1)一个集群有多个DataNode2)一个DataNode的数据会存储在多个路径。eg: /data1,/data2,/data3等等3)/data3 路径下面除了【/data3/dfs/dn】和 【/data3/yarn/nm】路径还会有其余文件,导致路径文件过大,同时CDH的 balancer 的平衡机制无法平衡4)解决方法:清除路径多余文件,或者在CDH中的DataNode移除对应路径5)无论DataNode还是y

2020-08-18 16:06:58 116

原创 JVM虚拟机

1.垃圾回收算法分类算法一:引用计数法。       这个方法是最经典点的一种方法。具体是对于对象设置一个引用计数器,每增加一个变 量对它的引用,引用计数器就会加 1,没减少一个变量的引用,引用计数器就会减 1,只有当对象的引用计数器变成 0 时,该对象才会被回收。可见这个算法很简单,但是简单往往会存在很多问题,这里我列举最明显的两个问题。       一是采用这种方法后,每次在增加变量引用和减少引用时都要进行加法或减法操

2020-08-07 19:35:01 156

原创 大数据工程师的日常工作内容

1 写 SQL(很多入职一两年的大数据工程师主要的工作就是写 SQL )2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)5 应用迁移(有

2020-08-07 14:17:57 215

转载 大数据优化方案----Spark数据倾斜

1. 什么是数据倾斜       数据倾斜是一种很常见的问题(依据二八定律),简单来说,比方WordCount中某个Key对应的数据量非常大的话,就会产生数据倾斜,导致两个后果:1)OOM(单或少数的节点);2)拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。2. 解决数据倾斜需要1)搞定 Shuffle;2)搞定业务场景;3)搞定 CPU core 的使用情况;(这里的core是虚拟的core而不是机器的物理CPU核,可以理解为就是

2020-08-07 11:27:45 135

原创 大数据面试题(五)----HIVE的调优及数据倾斜

一、 hive表的优化1)小表、大表 Join       将 key 相对分散,并且数据量小的表放在 join 的左边,这样可以有效减少内存溢出错误发生的几率;再进一步,可以使用 Group 让小的维度表(1000 条以下的记录条数)先进内存。在 map 端完成 reduce。实际测试发现:新版的 hive 已经对小表 JOIN 大表和大表 JOIN 小表进行了优化。小表放在左边和右边已经没有明显区别。案例实操      &n

2020-08-07 10:32:16 210

原创 数据挖掘考试题库

目录一、名词解释二、综合题一、名词解释数据仓库:是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。OLAP:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。粒度:指数据仓库的数据单位中保存数据细化或综合

2020-07-20 10:28:36 351

原创 tez 安装教程

环境版本CDH5.16.2 hadoop 2.7.0-cdh5.16.2安装前期准备1、This assumes that you have already installed JDK8 or later and Maven 3 or later.2、Tez also requires Protocol Buffers 2.5.0, including the protoc-compiler. This can be downloaded from https://github.com/google

2020-06-02 11:40:30 230

原创 Hive教程(十一)---整合HBASE

目录6.4.1 HBase与Hive的对比6.4.2 HBase与Hive集成使用6.4.1 HBase与Hive的对比Hive(1) 数据仓库Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。(2) 用于数据分析、清洗Hive适用于离线的数据分析和清洗,延迟较高。(3) 基于HDFS、MapReduceHive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行。HBase(1)

2020-05-15 23:32:45 185

原创 Hive教程(十)---JDBC的连接

目录10.1 创建maven项目添加依赖10.2 JAVAAPI10.1 创建maven项目添加依赖Jdbc是jdk开发的操作数据库的一套标准API(接口方法)Java提供的一套操作数据库的标准API<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

2020-05-15 23:28:26 237

原创 Hive教程(八)---压缩和存储
原力计划

目录8.1 Hadoop源码编译支持Snappy压缩8.2 Hadoop压缩配置8.3 开启Map输出阶段压缩8.4 开启Reduce输出阶段压缩8.5 文件存储格式8.6 存储和压缩结合8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题jar包准备(hadoop源码、JDK8 、maven、proto

2020-05-15 23:18:15 195 1

原创 Mysql案例(二)---列转行

列转行SELECT GROUP_CONCAT(shop_name),product_idfrom shopproduct GROUP BY product_id;

2020-05-14 13:04:17 199

原创 Hive教程(九)---企业级调优
原力计划

目录前述9.1 Fetch抓取9.2 本地模式9.3 表的优化9.4 数据倾斜9.5 并行执行9.6 严格模式9.7 JVM重用9.8 推测执行9.9 压缩9.10 执行计划(Explain) (搜索)前述查询速度 效率分区 分桶表特殊的文件格式 列式存储的文件类型查询时候指定字段join的时候使用on 避免笛卡尔积hive底层mr , inert into valuesreduce阶段 数据倾斜 添加reduce的个数设置maptask处理数据的大小 ,

2020-05-13 22:27:54 204

原创 Hive教程(七)---函数
原力计划

目录7.1系统内置函数7.2 自定义函数7.3 自定义UDF函数7.4 json解析函数:表生成函数7.1系统内置函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;7.2 自定义函数       1)Hive 自带了一些函数,比

2020-05-12 23:10:53 221

原创 Hive教程(十四)---hive常用命令备份

insert overwrite directory ‘/user/yuhui/table12’ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’select

2020-05-12 10:00:28 151

原创 Hive教程(六)---查询
原力计划

目录6.1 基本查询(Select…From)6.2 Where语句6.3 分组6.4 Join语句6.5 排序6.6 分桶及抽样查询6.7 其他常用查询函数6.1 基本查询(Select…From)6.1.1 全表和特定列查询全表查询hive (default)> select * from emp;选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)S

2020-05-11 07:44:42 248

原创 大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库
原力计划

目录一、需求二、思路三、解决方案一、需求1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G2、二、思路三、解决步骤

2020-05-10 18:34:53 572 1

原创 Hive教程(五)---DML(Data Manipulation Language)数据操作
原力计划

目录5.1 数据导入5.2 数据导出5.3 清除表中数据(Truncate)5.1 数据导入5.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HD

2020-05-09 00:41:40 163

原创 Hive教程(四)---DDL(Data Definition Language)
原力计划

目录4.1 创建数据库4.2 查询数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.6 分区表4.7 修改表(结构)4.8 删除表4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> creat

2020-05-09 00:30:00 259

原创 Hive教程(三)---Hive数据类型
原力计划

目录3.1基本数据类型3.2集合数据类型3.3类型转化表1-1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.

2020-05-08 23:46:11 211

原创 Hive教程(二)---hive的安装
原力计划

目录2.1 Hive安装地址2.2 Hive的集群安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.5 Hive元数据配置到MySql2.6 HiveJDBC访问2.7 Hive常用交互命令2.8 Hive其他命令操作2.9 Hive常见属性配置2.1 Hive安装地址Hive官网地址文档查看地址下载地址github地址2.2 Hive的集群安装部署2.2.1 HDFS和YARN正常运行2.2.2 mysql环境准备1) [root

2020-05-08 23:30:39 280

原创 Hive教程(一)---hive入门
原力计划

目录一、hive入门1.1什么是Hive       Hive:由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)。       本质是:将Hive SQL转化成MapReduce程序 或者 spark程序 。Hive是基于Hadoop的一个数据仓库工具(服务性的软件),可以将结构化的数据文件映射为一张表,并提供类似于SQL查询。      &nbs

2020-05-08 22:46:14 303

原创 Mysql教程(十四)---窗口函数

目录1、MySQL窗口函数简介2、窗口函数如何使用3、序号函数操作1、MySQL窗口函数简介       MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。1)什么叫窗口?       窗口函数也就是OLAP,拼写:online analytica...

2020-05-05 20:52:44 1482

原创 Mysql教程(十三)---CASE WHEN

目录1、简单函数2、搜索函数3、案例分析4、聚合函数 sum 配合 case when1、简单函数CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END: 枚举这个字段所有可能的值*-- 简单函数CASE <表达式> WHEN <表达式1> THEN <表达式4> ...

2020-05-05 17:34:10 246

原创 Mysql教程(十一)---内连接-外连接-全连接
原力计划

目录1、JOIN 按照功能描述2、内连接3、左外连接4、右外连接1、JOIN 按照功能描述JOIN 按照功能大致分为如下三类:INNER JOIN(内连接,或等值连接):获取两个表中字段匹配关系的记录。LEFT JOIN(左连接):获取左表所有记录,即使右表没有对应匹配的记录。RIGHT JOIN(右连接): 与 LEFT JOIN 相反,用于获取右表所有记录,即使左表没有对应...

2020-05-05 10:26:48 627

原创 Mysql教程(十)---子查询

目录1、子查询功能和约束2、需求:找出大于平均值得房屋3、需求:在原有列中加入,房屋平均价格列4、需求:朝向和卫生间房屋分组的平均价格大于总平均价格5、需求:相同卧室个数的大于,大于平均价格6、EXIST与NOT EXIST备注:Mysql教程(一)—本教程数据准备1、子查询功能和约束子查询:通过多个嵌套获得结果运行过程:先执行内部查询,在执行外部查询作用域:外嵌套的表名称...

2020-05-04 19:34:13 328

原创 Mysql教程(九)---分组

目录1、数据展示2、分组的意义3、HAVING过滤分组4、分组排序及执行顺序备注:Mysql教程(一)—本教程数据准备1、数据展示2、分组的意义及约束分组的意义1)分组时候,分组的字段一定要出现在select 字段中2)分组时候,select 可以出现聚合函数分组的约束1)对null的处理2)select 中有多余的字段3)低版本 不能按照别名进行分组,5.8可以使用...

2020-05-04 13:47:11 601

原创 Mysql教程(八)---常用的聚集函数

目录1、数据展示2、平均及坑3、统计count及坑4、distinct什么时候用5、其他函数备注:Mysql教程(一)—本教程数据准备1、数据展示1、平均及坑1)avg 是一个数字计算函数2)如果有null ,则对null值列去掉之后再开始计算比如:1,2,3,4, 5,null,7,8 avg计算为:1+2+3+4+5+7+8 / 72、统计count及坑1)...

2020-05-04 12:13:19 272

原创 Mysql教程(七)---高效的数据处理函数

目录1、时间日期处理2、数值处理函数3、文本处理函数备注:Mysql教程(一)—本教程数据准备1、时间日期处理CurDate() 返回当前日期 CurTime() 返回当前时间Date() 返回日期时间的日期部分 DateDiff() 计算两个日期之差 Day() 返回一个日期的天数部分 DayOfWeek() 对于一个日期,返回对应的星期几 ,注意返回值星期日为1,星期一...

2020-05-04 11:34:49 1254

原创 Mysql教程(六)---计算字段

目录1、concat2、别名3、计算1、concat-- 通过CONCAT将过多字符串连接select *, CONCAT(company,'(',city,code,')') from comcat_text;-- 如果有拼接null 则全为nullselect *, CONCAT(company,'(',city,NULL,')') from comcat_text; 2...

2020-05-04 11:18:50 314

原创 Mysql教程(五)---SQL正则表达式

目录1、SQL正则表达式列表2、SQL正则表达式案例备注:Mysql教程(一)—本教程数据准备1、SQL正则表达式列表备注: a1竖线a2 为: a1|a2 。由于Markdown中竖线为列的分隔符REGEXP说明^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。$匹...

2020-05-04 11:00:40 686

原创 Mysql教程(四)---过滤数据

目录1、WHERE过滤2、BETWEEN3、NULL空值4、多过滤条件组合5、IN与NOT IN过滤6、LIKE与通配符过滤1、WHERE过滤select * from house_prices where Home >=10 and Home <=20; -- 并且select * from house_prices where Home <=10 ...

2020-05-04 10:34:58 517 1

原创 Mysql教程(三)---SELECT基础检索

目录1、检索指定列列2、星符号初体验3、DISTINCT 去重4、Order by5、Limit1、检索指定列列指定列名称,列的顺序为自己指定select Home , price , SqFt , Bedrooms ,Neighborhood from house_prices2、星符号初体验【*】代表全部列名称,列的顺序为建表顺序select * from house...

2020-05-04 09:49:09 815 2

原创 Mysql教程(一)---本教程数据准备

目录1、house_prices2、comcat_text3、infoMysql教程的所有表格和数据陆续加载1、house_pricesCREATE TABLE `house_prices` ( `Home` int NOT NULL COMMENT '房子编号', `Price` int DEFAULT NULL COMMENT '价格', `SqFt` int DEF...

2020-05-04 09:18:46 669 1

silentwolf

让你在最短时间学会ASP.NET 通俗易懂

2010-05-19

Mysql教程所有数据.zip

博客【北京小辉】中Mysql教程的所有加载数据。余辉,中科院硕士研究生毕业,专注于大数据领域多年。曾工作于清华大学、京东,现从事大数据讲师一职。 博客地址:https://blog.csdn.net/silentwolfyh

2020-05-05

新概念2知识点.pdf

新概念2-课文名称和知识点,链接:https://blog.csdn.net/silentwolfyh/article/details/95083297

2019-09-06

crawlerBank.py

功能说明: 2、选择爬取 代码说明: 1、如果没有参数,则抓取所有银行数据 1.1、抓取过程中如果有一家银行有错误,会邮件报警,且不影响其余银行抓取 2、如果有参数(参数只能有一个)且参数正确,则抓取对应银行数据 3、如果有参数(参数只能有一个)且参数操作,则停止运行,弹出正确参数列表 4、15家银行的银行名称、 银行代码 、 银行URL如下所示: 备注: 001 属于页面数据源在内嵌Iframe 002 属于页面数据源为json 008 属于页面数据源为js 010 属于页面数据源为xml

2019-07-08

Hive的Udf函数进行数据脱敏

udf开发–做个简单脱敏udf保留前5位,后面全部替换成*****

2019-01-26

sqoop的数据导入

sqoop的数据导入

2019-01-16

SpringBoot的mvc三层以及增删改查页面

demo说明 1、这个demo是一个springboot的样例。 2、MVC三层都弄好了,增删改查功能都能用。 3、Test中有Service层的测试方法 参考地址:https://blog.csdn.net/silentwolfyh/article/details/84350966 参考地址:https://blog.csdn.net/silentwolfyh/article/details/83995563

2018-11-22

spring boot+mybatis整合

目录 一、整体结构图 二、Spring boot搭建 三、整合Mybatis(自动生成工具) 1、集成druid,使用连接池 2、自动生成工具依赖和插件 3、最终的pom.xml文件: 4、在application.yml中添加数据源、Mybatis的实体和配置文件位置。 5、自动生成代码配置文件。 6、建立数据库和表 7、生产Dao层和entity类 8、建立controller层类 9、建立service层类 10、启动之后结果展示 --------------------- 作者:silentwolfyh 来源:CSDN 原文:https://blog.csdn.net/silentwolfyh/article/details/83995563 版权声明:本文为博主原创文章,转载请附上博文链接!

2018-11-12

传智播客---lucene入门

目录介绍 1、 Lucene介绍 a) 什么是lucene b) 全文检索的应用场景 c) 全文检索定义 2、 Luence实现全文检索的流程(重点) 3、 入门程序 4、 Field域(重点) 5、 索引维护 a) 添加索引 b) 删除索引 c) 修改索引 6、 搜索(重点) a) 通过Query子类创建查询对象 b) 通过QueryParser创建查询对象 7、 相关度排序 8、 中文分词器(重点)

2018-08-28

Lucene实战(第2版).pdf

《lucene实战(第2版)》基于apache的lucene3.0,从lucene核心、lucene应用、案例分析3个方面详细系统地介绍了lucene,包括认识lucene、建立索引、为应用程序添加搜索功能、高级搜索技术、扩展搜索、使用tika提取文本、lucene的高级扩展、使用其他编程语言访问lucene、lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界。   《lucene实战(第2版)》适合于已具有一定java编程基本的读者,以及希望能够把强大的搜索功能添加到自己的应用程序中的开发人员。lucene实战(第2版)》对于从事搜索引擎工作的工程技术人员,以及在java平台上进行各类软件开发的人员和编程爱好者,也具有很好的学习参考价值。

2018-08-28

SparkSql技术

目录 一:为什么sparkSQL? 3 1.1:sparkSQL的发展历程 3 1.1.1:hive and shark 3 1.1.2:Shark和sparkSQL 4 1.2:sparkSQL的性能 5 1.2.1:内存列存储(In-Memory Columnar Storage) 6 1.2.2:字节码生成技术(bytecode generation,即CG) 6 1.2.3:scala代码优化 7 二:sparkSQL运行架构 8 2.1:Tree和Rule 9 2.1.1:Tree 10 2.1.2:Rule 10 2.2:sqlContext的运行过程 12 2.3:hiveContext的运行过程 14 2.4:catalyst优化器 16 三:sparkSQL组件之解析 17 3.1:LogicalPlan 18 3.2:SqlParser 20 3.1.1:解析过程 20 3.1.2:SqlParser 22 3.1.3:SqlLexical 25 3.1.4:query 26 3.3:Analyzer 26 3.4:Optimizer 28 3.5:SpankPlan 30 四:深入了解sparkSQL运行计划 30 4.1:hive/console安装 30 4.1.1:安装hive/cosole 30 4.1.2:hive/console原理 31 4.2:常用操作 32 4.2.1 查看查询的schema 32 4.2.2 查看查询的整个运行计划 33 4.2.3 查看查询的Unresolved LogicalPlan 33 4.2.4 查看查询的analyzed LogicalPlan 33 4.2.5 查看优化后的LogicalPlan 33 4.2.6 查看物理计划 33 4.2.7 查看RDD的转换过程 33 4.2.8 更多的操作 34 4.3:不同数据源的运行计划 34 4.3.1 json文件 34 4.3.2 parquet文件 35 4.3.3 hive数据 36 4.4:不同查询的运行计划 36 4.4.1 聚合查询 36 4.4.2 join操作 37 4.4.3 Distinct操作 37 4.5:查询的优化 38 4.5.1 CombineFilters 38 4.5.2 PushPredicateThroughProject 39 4.5.3 ConstantFolding 39 4.5.4 自定义优化 39 五:测试环境之搭建 40 5.1:虚拟集群的搭建(hadoop1、hadoop2、hadoop3) 41 5.1.1:hadoop2.2.0集群搭建 41 5.1.2:MySQL的安装 41 5.1.3:hive的安装 41 5.1.4:Spark1.1.0 Standalone集群搭建 42 5.2:客户端的搭建 42 5.3:文件数据准备工作 42 5.4:hive数据准备工作 43 六:sparkSQL之基础应用 43 6.1:sqlContext基础应用 44 6.1.1:RDD 44 6.1.2:parquet文件 46 6.1.3:json文件 46 6.2:hiveContext基础应用 47 6.3:混合使用 49 6.4:缓存之使用 50 6.5:DSL之使用 51 6.6:Tips 51 七:ThriftServer和CLI 51 7.1:令人惊讶的CLI 51 7.1.1 CLI配置 52 7.1.2 CLI命令参数 52 7.1.3 CLI使用 53 7.2:ThriftServer 53 7.2.1 ThriftServer配置 53 7.2.2 ThriftServer命令参数 54 7.2.3 ThriftServer使用 54 7.3:小结 56 八:sparkSQL之综合应用 57 8.1:店铺分类 57 8.2:PageRank 59 8.3:小结 61 九:sparkSQL之调优 61 9.1:并行性 62 9.2: 高效的数据格式 62 9.3:内存的使用 63 9.4:合适的Task 64 9.5:其他的一些建议 64 十:总结 64

2018-08-16

MacBook Pro的快捷键

目录: 一、开机相关命令快捷键 , 二、常用系统快捷键 , 三、窗口操作 , 四、Finder , 五、屏幕截图

2018-08-16

hadoop-Apache2.7.3+Spark2.0集群搭建

包括了:Hadoop2.7.3、Spark2.0、Zookeeper3.4.8、Hive、Hbase、Kafka2.10、Flume的环境搭建

2018-08-16

SqlServer驱动包

SqlServer驱动包,代码请关注http://blog.csdn.net/silentwolfyh

2015-08-30

silentwolfyh的留言板

发表于 2020-01-02 最后回复 2020-01-02

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除