- 博客(532)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
原创 Hive教程(六)---查询
目录6.1 基本查询(Select…From)6.2 Where语句6.3 分组6.4 Join语句6.5 排序6.6 分桶及抽样查询6.7 其他常用查询函数6.1 基本查询(Select…From)6.1.1 全表和特定列查询全表查询hive (default)> select * from emp;选择特定列查询hive (default)> select empno, ename from emp;注意:(1)SQL 语言大小写不敏感。(2)S
2020-05-11 07:44:42 384 1
原创 大数据优化方案---Mysql中47G大表通过SQOOP导入数据仓库
目录一、需求二、思路三、解决方案一、需求1、由于公司的Mysql表中有很多单表存储量有几亿,单表达到40多个G2、二、思路三、解决步骤
2020-05-10 18:34:53 1589 2
原创 Hive教程(五)---DML(Data Manipulation Language)数据操作
目录5.1 数据导入5.2 数据导出5.3 清除表中数据(Truncate)5.1 数据导入5.1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' overwrite | into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HD
2020-05-09 00:41:40 378
原创 Hive教程(四)---DDL(Data Definition Language)
目录4.1 创建数据库4.2 查询数据库4.3 修改数据库4.4 删除数据库4.5 创建表4.6 分区表4.7 修改表(结构)4.8 删除表4.1 创建数据库1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive (default)> creat
2020-05-09 00:30:00 490
原创 Hive教程(三)---Hive数据类型
目录3.1基本数据类型3.2集合数据类型3.3类型转化表1-1 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.
2020-05-08 23:46:11 601
原创 Hive教程(二)---hive的安装
目录2.1 Hive安装地址2.2 Hive的集群安装部署2.3 将本地文件导入Hive案例2.4 MySql安装2.5 Hive元数据配置到MySql2.6 HiveJDBC访问2.7 Hive常用交互命令2.8 Hive其他命令操作2.9 Hive常见属性配置2.1 Hive安装地址Hive官网地址文档查看地址下载地址github地址2.2 Hive的集群安装部署2.2.1 HDFS和YARN正常运行2.2.2 mysql环境准备1) [root
2020-05-08 23:30:39 629
原创 Hive教程(一)---hive入门
目录一、hive入门1.1什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(海量的结构化数据的运算分析)。 本质是:将Hive SQL转化成MapReduce程序 或者 spark程序 。Hive是基于Hadoop的一个数据仓库工具(服务性的软件),可以将结构化的数据文件映射为一张表,并提供类似于SQL查询。 &nbs
2020-05-08 22:46:14 1733
原创 Mysql教程(十四)---窗口函数
目录1、MySQL窗口函数简介2、窗口函数如何使用3、序号函数操作1、MySQL窗口函数简介 MySQL从8.0开始支持窗口函数,这个功能在大多商业数据库和部分开源数据库中早已支持,有的也叫分析函数。1)什么叫窗口? 窗口函数也就是OLAP,拼写:online analytica...
2020-05-05 20:52:44 1782
原创 Mysql教程(十三)---CASE WHEN
目录1、简单函数2、搜索函数3、案例分析4、聚合函数 sum 配合 case when1、简单函数CASE [col_name] WHEN [value1] THEN [result1]…ELSE [default] END: 枚举这个字段所有可能的值*-- 简单函数CASE <表达式> WHEN <表达式1> THEN <表达式4> ...
2020-05-05 17:34:10 464
原创 Mysql教程(十一)---内连接-外连接-全连接
目录1、JOIN 按照功能描述2、内连接3、左外连接4、右外连接1、JOIN 按照功能描述JOIN 按照功能大致分为如下三类:INNER JOIN(内连接,或等值连接):获取两个表中字段匹配关系的记录。LEFT JOIN(左连接):获取左表所有记录,即使右表没有对应匹配的记录。RIGHT JOIN(右连接): 与 LEFT JOIN 相反,用于获取右表所有记录,即使左表没有对应...
2020-05-05 10:26:48 814
原创 Mysql教程(十)---子查询
目录1、子查询功能和约束2、需求:找出大于平均值得房屋3、需求:在原有列中加入,房屋平均价格列4、需求:朝向和卫生间房屋分组的平均价格大于总平均价格5、需求:相同卧室个数的大于,大于平均价格6、EXIST与NOT EXIST备注:Mysql教程(一)—本教程数据准备1、子查询功能和约束子查询:通过多个嵌套获得结果运行过程:先执行内部查询,在执行外部查询作用域:外嵌套的表名称...
2020-05-04 19:34:13 513
原创 Mysql教程(九)---分组
目录1、数据展示2、分组的意义3、HAVING过滤分组4、分组排序及执行顺序备注:Mysql教程(一)—本教程数据准备1、数据展示2、分组的意义及约束分组的意义1)分组时候,分组的字段一定要出现在select 字段中2)分组时候,select 可以出现聚合函数分组的约束1)对null的处理2)select 中有多余的字段3)低版本 不能按照别名进行分组,5.8可以使用...
2020-05-04 13:47:11 725
原创 Mysql教程(八)---常用的聚集函数
目录1、数据展示2、平均及坑3、统计count及坑4、distinct什么时候用5、其他函数备注:Mysql教程(一)—本教程数据准备1、数据展示1、平均及坑1)avg 是一个数字计算函数2)如果有null ,则对null值列去掉之后再开始计算比如:1,2,3,4, 5,null,7,8 avg计算为:1+2+3+4+5+7+8 / 72、统计count及坑1)...
2020-05-04 12:13:19 469
原创 Mysql教程(七)---高效的数据处理函数
目录1、时间日期处理2、数值处理函数3、文本处理函数备注:Mysql教程(一)—本教程数据准备1、时间日期处理CurDate() 返回当前日期 CurTime() 返回当前时间Date() 返回日期时间的日期部分 DateDiff() 计算两个日期之差 Day() 返回一个日期的天数部分 DayOfWeek() 对于一个日期,返回对应的星期几 ,注意返回值星期日为1,星期一...
2020-05-04 11:34:49 1445
原创 Mysql教程(六)---计算字段
目录1、concat2、别名3、计算1、concat-- 通过CONCAT将过多字符串连接select *, CONCAT(company,'(',city,code,')') from comcat_text;-- 如果有拼接null 则全为nullselect *, CONCAT(company,'(',city,NULL,')') from comcat_text; 2...
2020-05-04 11:18:50 508
原创 Mysql教程(五)---SQL正则表达式
目录1、SQL正则表达式列表2、SQL正则表达式案例备注:Mysql教程(一)—本教程数据准备1、SQL正则表达式列表备注: a1竖线a2 为: a1|a2 。由于Markdown中竖线为列的分隔符REGEXP说明^匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 ‘\n’ 或 ‘\r’ 之后的位置。$匹...
2020-05-04 11:00:40 974
原创 Mysql教程(四)---过滤数据
目录1、WHERE过滤2、BETWEEN3、NULL空值4、多过滤条件组合5、IN与NOT IN过滤6、LIKE与通配符过滤1、WHERE过滤select * from house_prices where Home >=10 and Home <=20; -- 并且select * from house_prices where Home <=10 ...
2020-05-04 10:34:58 732 1
原创 Mysql教程(三)---SELECT基础检索
目录1、检索指定列列2、星符号初体验3、DISTINCT 去重4、Order by5、Limit1、检索指定列列指定列名称,列的顺序为自己指定select Home , price , SqFt , Bedrooms ,Neighborhood from house_prices2、星符号初体验【*】代表全部列名称,列的顺序为建表顺序select * from house...
2020-05-04 09:49:09 1045 2
原创 Mysql教程(一)---本教程数据准备
目录1、house_prices2、comcat_text3、infoMysql教程的所有表格和数据陆续加载1、house_pricesCREATE TABLE `house_prices` ( `Home` int NOT NULL COMMENT '房子编号', `Price` int DEFAULT NULL COMMENT '价格', `SqFt` int DEF...
2020-05-04 09:18:46 1004 1
原创 iTerm2教程
目录一、iTerm2 配色方案(oh-my-zsh& Powerline)一、iTerm2 配色方案(oh-my-zsh& Powerline)效果图不要急,按照辉哥的步骤一步一步来第一步:第一步先去官网下载iTerm2,打开后是全黑色的背景。打开iTerm2的偏好设定,Profiles / Colors,直接选择Solarized Dark。第二步:安装oh...
2020-03-28 18:02:13 8158
原创 Spark深入解读(五)---- SparkStandalone模式集群部署和任务启动方式
目录架构说明(standalone模式)架构说明(standalone模式)standalone模式是Spark自带的分布式集群模式,不依赖其他的资源调度框架搭建步骤下载spark安装包,下载地址:https://spark.apache.org/downloads.html上传spark安装包到Linux服务器上解压spark安装包tar -zxvf spar...
2020-03-18 15:47:49 556 1
原创 flume1.9保存文件到hdfs的错误解决
flume配置sink向hdfs中写入文件,在启动的时候遇到的报错问题Failed to start agent because dependencies were not found in classpath. Error follows.java.lang.NoClassDefFoundError: org/apache/hadoop/io/SequenceFile$Compressio...
2020-03-05 21:19:03 3289
原创 Spark深入解读(三)---- 工作模式及角色
目录一、角色描述二、Local本地模式三、standalone模式四、spark on yarn 模式 1) Spark on yarn client模式 2) Spark on yarn cluster模式五、总结一、角色描述Application: Appl...
2020-02-23 00:35:04 2110 1
原创 Spark深入解读(二)---- 工作流程
Spark工作流程1.使用Spark-submit提交代码至服务器上2.创建SparkContext,在SparkContext初始化的时候会创建DAGScheduler和TaskScheduler3.TaskScheduler会启动一个后台进程去集群Master注册Application,申请任务资源,比如CPU,内存等等4.Master接收注册请求后会利用自己的资源调度算法,在Spa...
2020-02-22 23:40:43 535
原创 Spark深入解读(一)---- 基本概念
目录一、Application二、Job三、DAG四、Stage五、Task六、TaskSet七、RDD八、dependency九、Shuffle一、Application使用SparkSubmit提交的个计算应用一个Application中可以触发多次Action,触发一次Action形成一个DAG,一个DAG对应一个Job一个Application中可以有一到多...
2020-02-22 23:34:19 724
原创 Log4j入门教程
目录一、log4j简介二、log4j配置文件三、配置语法四、代码中使用log4j记录日志五、典型配置示例一、log4j简介 Log4j是一个用于在java系统中记录日志的框架!Log4j由三个重要的组件构成:1.日志信息的优先级 工具对日志进行了优先级的划分,日志信息的优先...
2020-02-21 16:00:02 539
原创 Hive架构原理
1.用户接口:Client CLI(hive shell)、JDBC/ODBC(java访问hive)、WEBUI(浏览器访问hive)2.元数据:Metastore 元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所...
2020-02-20 10:16:59 549
原创 Spark图计算GraphX介绍及实例
目录一、GraphX介绍二、GraphX实现分析三、GraphX实例四、参考资料一、GraphX介绍1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 &nbs...
2020-02-17 18:55:15 856 1
原创 Hadoop 2.8.5 Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/user:root问题解决
目录一、问题二、分析三、解决方案两种第一种方案第二种方案四、展示一、问题Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user":root:supergroup:drwx-wx-wx二、分析 我在浏览器查看目录和删除目录及文件,为什么会是d...
2020-01-12 17:54:38 8894 1
原创 大数据面试题(十)----Zookeeper 面试题
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”。 大数据面试宝典目录,请点击目录1. 请简述ZooKeeper 的选举机制2. 客户端对ZooKeeper 的ServerList 的轮询机制3. 客户端如何正确处理CONNECTIONLOSS( 连接断开) 和SE...
2020-01-10 18:38:12 3649 1
原创 大数据面试题(九)----Spark面试题
目录1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存在Zookeeper?2. Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么?3. Spark on Mesos 中,什么是的粗粒度分配,什么是细粒度分配, 各自的优点和缺点是什么?1. Spark master 使用zookeeper 进行HA 的,有哪些元数据保存...
2020-01-06 21:33:36 1602 1
原创 大数据面试题(八)----Kafka面试题
目录1.请说明什么是Apache Kafka?2.请说明什么是传统的消息传递方法?3.请说明Kafka 相对于传统的消息传递方法有什么优势?1.请说明什么是Apache Kafka? Apache Kafka 是由Apache 开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2.请说明什么是传统的消息传递方法...
2020-01-06 21:29:47 968 1
原创 大数据面试题(七)----Flume面试题
目录1. Flume 使用场景(☆☆☆☆☆)2. Flume 丢包问题(☆☆☆☆☆)3. Flume 与Kafka 的选取1. Flume 使用场景(☆☆☆☆☆)线上数据一般主要是落地(存储到磁盘)或者通过socket 传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka 里写数据,这时候你可能就需要flume 这样的系统帮你去做传输。2. Fl...
2020-01-06 21:24:03 1067 1
原创 大数据面试题(六)----HBASE 面试题
目录1. HBase 的特点是什么?2. HBase 和Hive 的区别?3. 描述HBase 的rowKey 的设计原则?4. 描述HBase 中scan 和get 的功能以及实现的异同?1. HBase 的特点是什么?1) 大:一个表可以有数十亿行,上百万列;2) 无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;...
2020-01-06 21:16:54 1774 1
原创 大数据面试题(五)----HIVE面试题
HIVE面试题Hive 表关联查询,如何解决数据倾斜的问题?(☆☆☆☆☆)1) 倾斜原因: map 输出数据按key Hash 的分配到reduce 中,由于key 分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。(1) key 分布不均匀;(2) 业务数据本身的特性;(3) 建表时考虑...
2020-01-06 20:54:09 2226
原创 大数据优化方案----企业案例分析
海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP 取出来,逐个写入到一个大文件中。注意到IP 是32 位的,最多有个2^32 个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找...
2020-01-06 20:06:10 828 1
原创 大数据优化方案----MapReduce优化方法
MapReduce跑的慢的原因(☆☆☆☆☆)一、Mapreduce 程序效率的瓶颈在于两点:1) 计算机性能CPU、内存、磁盘健康、网络2) I/O 操作优化(1) 数据倾斜(2) map 和reduce 数设置不合理(3) reduce 等待过久(4) 小文件过多(5) 大量的不可分块的超大文件(6) spill 次数过多(7) merge 次数过多等。二、MapRedu...
2020-01-06 19:48:09 1096 1
原创 大数据优化方案----HDFS小文件优化方法
HDFS 小文件优化方法(☆☆☆☆☆)1) HDFS 小文件弊端: HDFS 上每个文件都要在namenode 上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode 的内存空间,另一方面就是索引文件过大是的索引速度变慢。2) 解决的方式:(1)Hadoop 本...
2020-01-06 19:37:48 1510 2
原创 大数据面试题(四)----YARN面试题
简述hadoop1 与hadoop2 的架构异同加入了yarn 解决了资源调度的问题。加入了对zookeeper 的支持实现比较可靠的高可用。为什么会产生yarn,它解决了什么问题,有什么优势?Yarn 最主要的功能就是解决运行的用户程序与yarn 框架完全解耦。Yarn 上可以运行各种类型的分布式运算程序(mapreduce 只是其中的一种),比如mapreduce、stor...
2020-01-06 19:32:03 1264 2
原创 大数据面试题(二)----HDFS面试题
HDFS基础HDFS 中的block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定HDFS 默认BlockSize 是(C)A. 2MBB. 4MB(2.7.2 版本,本地模式)C. 8MB(2.7.2 版本,分布式模式)Client 端上传文件的时候下列哪项正确?(BC)A. 数据经过NameNode 传递DataNodeB. Client 端...
2020-01-06 19:15:42 6495 3
Mysql教程所有数据.zip
2020-05-05
crawlerBank.py
2019-07-08
SpringBoot的mvc三层以及增删改查页面
2018-11-22
spring boot+mybatis整合
2018-11-12
Lucene实战(第2版).pdf
2018-08-28
SparkSql技术
2018-08-16
hadoop-Apache2.7.3+Spark2.0集群搭建
2018-08-16
stable-diffusion-webui启动报错
2024-05-13
微博对一条微博进行评论API
2023-05-17
调用JEECG微博发帖API异常
2023-05-17
mac版本idea中路径颜色设置
2020-03-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人