自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cpz

学习笔记

  • 博客(80)
  • 收藏
  • 关注

原创 新模块 Sql 学习笔记声明!!

声明: 最近准备开始从头系统地学习一下 Sql 的相关知识,并会在本文中进行汇总。(本人初学,如有错误,欢迎斧正!)Sql 练习:Sql 练习50道(掌握可解大部分的sql问题)(初始化 and 1-10)Sql 练习50道(掌握可解大部分的sql问题)(11 - 20)Sql:Sql学习笔记(一)...

2019-08-29 22:24:03 91

原创 Sql 练习50道(掌握可解大部分的sql问题)(11 - 20)

题目(详解 11-20):11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名;SELECT s.sid,s.sname FROM student s,sc WHERE s.sid=sc.sid AND sc.cid IN (SELECT cid FROM sc WHERE sid=01) AND sc.sid<>01GROUP BY s.sid;...

2019-09-28 14:18:50 286

原创 Sql 练习50道(掌握可解大部分的sql问题)(初始化 and 1-10)

数据库表初始化:create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电'...

2019-09-22 15:09:00 274

原创 Hadoop生态圈之Kudu(一)

Apache Kudu​ Apache Kudu 是由 Cloudera 开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件,具备介于两者之间的新存储组件。​ Kudu 支持水平扩展,并且与 Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密...

2019-09-16 10:56:39 1235

原创 Hadoop生态圈之Hue(一)

Apache Hue​ HUE=Hadoop User Experience​ Hue 是一个开源的 Apache Hadoop UI 系统,由 Cloudera Desktop 演化而来,最后 Cloudera 公司将其贡献给 Apache 基金会的 Hadoop 社区,它是基于 Python Web 框架 Django 实现的。​ 通过使用...

2019-09-16 10:51:14 368

原创 Hadoop生态圈之Oozie(一)

Apache Oozie​ Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera 公司贡献给 Apache。 Oozie 是运行于 Java servlet 容器上的一个 java web 应用。 Oozie 的目的是按照 DAG(有向无环图) 调度一系列的 Map/Reduce 或者 Hive 等任务。 Oozie 工作流由 hPDL(Hadoop...

2019-09-16 10:39:14 368

原创 Hadoop生态圈之Impala(一)

Apache Impala impala 是 cloudera 提供的一款高效率的 sql 查询工具,提供实时的查询效果​ impala 是基于 hive 并使用内存进行计算,兼顾数据仓库,具有实时,批处理,多并发等优点。Impala 与 Hive 关系​ impala 是基于 hive 的大数据分析查询引擎,直接使用 hive 的元数据...

2019-09-16 10:34:41 537

原创 Hadoop生态圈之Azkaban(一)

Azkaban1.工作流​ 工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。​ 工作流解决的主要问题是:为了实现某个业务目标,利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。​ 一个完整的数据分析系统通常都是有多个前后依赖的模块组合构...

2019-09-16 10:20:54 160

原创 Hadoop生态圈之Sqoop(一)

Apache Sqoop 介绍 Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具​ Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。 Hadoop 生态系统包括: HDFS、 H...

2019-09-16 10:07:59 433

原创 Hadoop生态圈之Flume(二)

Flume拦截器实战案例日志采集和汇总案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求:把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为:/source/logs/access/20160101/**...

2019-09-02 20:31:09 109

原创 Hive(数据仓库)Hive 调优

10.hive调优10.1 Fetch抓取Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM score;在这种情况下,Hive可以简单地读取score对应的存储目录下的文件,然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.案例实操:1)把hive.fetch....

2019-09-02 20:23:36 237

原创 Hive(数据仓库)数据压缩、数据存储格式

7.hive的数据压缩在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽**7.1 **MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否Gzipgzip...

2019-09-02 20:22:55 1021

原创 Hive(数据仓库)Hive 的查询语法、shell参数、函数

4. Hive 查询语法4.1. SELECTSELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY...

2019-09-02 20:21:02 544

原创 Hive(数据仓库) Hive 的交互方式和基本操作

1. Hive 的交互方式第一种交互方式:bin/hive第二种交互方式:使用 sql 语句或者 sql 脚本进行交互2. Hive 的基本操作2.1 数据库操作创建数据库:create database if not exists myhive;创建数据库并指定位置:create database myhive location '/myhi...

2019-09-02 20:16:00 379

原创 Sql 学习笔记(一)

1. 数据库的创建create database <数据库名称>;2. 表的创建create table <表名>(<列名1> <数据类型> <该列所需约束>, <列名1> <数据类型> <该列所需约束>, <列名1> <数据类型> <该列所需约束&g...

2019-08-29 23:00:03 103

原创 Hadoop生态圈之Flume(一)

1. 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的...

2019-08-29 20:19:46 582

原创 Hive(数据仓库) Hive 的安装

Hive 的安装这里我们选用hive的版本是2.1.1下载地址为:http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz下载之后,将我们的安装包上传到第三台机器的/export/softwares目录下面去第一步:上传并解压安装包将我们的hive的安装包上传到第三台服务器的/expo...

2019-08-26 20:44:48 213

原创 Hive(数据仓库)数据仓库和 Hive 的基本概念

1. 数据仓库1.1 基本概念 英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库的目的是构建面相分析的集成化数据环境,为企业提供决策支持(Decision Support)。 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表...

2019-08-26 20:41:27 2496

原创 Hadoop_day06_MapReduce 的 经典案例(求共同好友)

1. 需求分析以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,...

2019-08-26 20:22:21 185

原创 Hadoop_day06_MapReduce 的 Reduce 和 Map 端实现 join 操作

一、Reduce 端1. 需求商品表id pname category_id price P0001 小米5 1000 2000 P0002 锤子T1 1000 3000 订单数据表id date pid amount 1001 20150710 P0001 2 1002...

2019-08-26 20:12:40 117

原创 Hadoop_day06_MapReduce 的工作机制详解

1. MapTask 工作机制简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲...

2019-08-26 20:03:28 108

原创 Hadoop_day05_MapReduce 的 经典案例(流量统计)

需求一:统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入1.1 自定义SumBeanpublic class SumBean implements Writa...

2019-08-20 20:21:40 689

原创 Hadoop_day05_MapReduce 的 Shuffle 详解(分区、排序、规约、分组)

一、分区在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理​ 例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等​ 其实就是相同类型的数据, 有共性的数据, 送到一起去处理 ...

2019-08-20 20:04:13 1166

原创 Hadoop_day05_MapReduce 的入门案例(WordCount:统计单词出现次数)

1. 数据格式准备1.1 创建一个新的文件cd /export/serversvim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop1.3 上传到 HDFShdfs dfs -mkdir /wordcount/hd...

2019-08-20 19:45:52 315

原创 Hadoop_day05_MapReduce相关概念

1.MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对ma...

2019-08-20 19:39:20 115

原创 Hadoop_day04_HDFS的API操作

1、在 Windows 下配置 Hadoop 环境1.1 未配置会产生的问题缺少 winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少 hadoop.dllUnable to load native-hadoop library for your pl...

2019-08-20 19:29:51 132

原创 Hadoop_day03_HDFS的命令行操作

--查看路径 hdfs dfs -ls -R path--查看内容 hdfs dfs -cat path--创建文件夹 hdfs dfs -mkdir -p path--本地上传到HDFS --拷贝 hdfs dfs -put localsrc dst--本地上传到HDFS --剪切 hdfs dfs -moveFromLocal local...

2019-08-17 19:48:04 115

原创 Hadoop_day03_HDFS重点概念(架构、读写过程、机架感知、NameNode、DataNode、SecondaryNameNode)

一、HDFS的架构:1:Client(客户端) 文件切分。文件上传到HDFS的时候,Client将文件切分成一个个block,然后进行存储 与NameNode进行交互,获取文件的位置信息 与DataNode进行交互,读取或者写入数据 Client提供一些命令来管理和访问HDFS,比如启动或者关闭HDFS 2:NameNode(master,一个管理者)...

2019-08-17 19:46:45 221

原创 Hadoop_day02_Zookeeper的深入理解和操作(客户端、API(Java))

1. zookeeper的数据类型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构. ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。 zookeeper树和文件系统的目录树不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元...

2019-08-15 20:12:27 139

原创 Hadoop_day01_Zookeeper概述及安装

Zookeeper1.Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zooke...

2019-08-15 19:46:37 168

原创 Hadoop_day01_hadoop辅助软件(Linux)

辅助软件JDK&mysql1.三台机器安装jdk1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_...

2019-08-15 19:42:14 172

原创 Hadoop_day01_hadoop环境搭建(Linux)

集群环境搭建1.注意事项1.1 确认所有VmWare服务已启动1.2 确认VmWare网关地址1.3 确认VmNet8配置好IP地址和DNS2.复制虚拟机2.1 将虚拟机文件夹复制三份,并分别重命名, 并使用VM打开重命名2.2设置三台虚拟机内存需要三台虚拟机, 并且需要同时运行, 所以总体上的占用为: 每台虚拟机内存×3每台虚拟机内存 \times 3每台虚拟机内...

2019-08-15 19:37:42 206

原创 Hadoop_day01_大数据的概念及磁盘存储

Hadoop预备知识1.大数据课程导论1.1.大数据概念​ 大数据bigdata,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。​ 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte...

2019-08-15 19:27:18 795

原创 Java框架_SSM_day01_SSM的初次整合

目录一、SSM整合步骤1.1 整合步骤概述1.1.1 整合思路1.1.2 整合步骤1.2 开发准备1.2.1 导入 jar 包1.2.2 创建实体类1.2.3 创建 Dao1.2.4 创建 Service1.2.5 创建 Controller1.3 搭建 Spring 的环境1.3.1 applicationContext.xml1.3.2 lo...

2019-08-11 19:05:34 180

原创 Java框架_Spring5_day09_事务控制

十一、Spring 中的事务控制11.1 Spring 事务控制的API11.1.1 PlatformTransactionManager此接口是spring的事务管理器,它里面提供了我们常用的操作事务的方法,如下图:我们在开发中都是使用它的实现类: org.springframework.jdbc.datasource.DataSourceTransactio...

2019-08-10 16:49:51 216 1

原创 Java框架_Spring5_day08_JdbcTemplate的简单使用

十、Spring 中的 JdbcTemplate10.1 概述 JdbcTemplate 是spring框架中提供的一个对象,是对原始Jdbc API对象的简单封装。10.2 准备工作导入 jar 包 <dependencies> <dependency> <groupId>org....

2019-08-10 16:03:42 147

原创 前端_CSS

CSS:页面美化和布局控制1. 概念: Cascading Style Sheets 层叠样式表 * 层叠:多个样式可以作用在同一个html的元素上,同时生效2. 好处: 1. 功能强大 2. 将内容展示和样式控制分离 * 降低耦合度。解耦 * 让分工协作更容易 * 提高开发效率3. CSS的使用:CSS与html...

2019-08-10 15:43:49 131 1

原创 前端_HTML

web概念概述JavaWeb:使用Java语言开发基于互联网的项目软件架构: 1. C/S: Client/Server 客户端/服务器端 * 在用户本地有一个客户端程序,在远程有一个服务器端程序 * 如:QQ,迅雷... * 优点: 1. 用户体验好 ...

2019-08-10 15:43:25 88

原创 Java框架_SpringMVC_day07_拦截器

目录八、SpringMVC 中的拦截器8.1 拦截器的作用8.2 自定义拦截器8.2.1 数据准备8.2.2 自定义拦截器8.2.3 配置拦截器类8.3 配置多个拦截器8.3.1 再编写一个拦截器8.3.2 配置拦截器8.3.3 结果显示八、SpringMVC 中的拦截器8.1 拦截器的作用 Spring MVC 的处理器拦截器类似...

2019-08-10 11:27:24 121

原创 Java框架_SpringMVC_day06_异常处理

目录七、SpringMVC 的异常处理7.1 异常处理思路7.2 SpringMVC 的异常处理7.2.1 数据准备7.2.2 编写自定义异常类7.2.3 编写异常处理器7.2.4 配置异常处理器7.2.5 Controller7.2.6 error.jsp七、SpringMVC 的异常处理7.1 异常处理思路 系统中异常包括两类:预期异...

2019-08-10 10:57:04 166 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除