chipeize-CSDN博客

原创新模块 Sql 学习笔记声明！！

声明：最近准备开始从头系统地学习一下 Sql 的相关知识，并会在本文中进行汇总。（本人初学，如有错误，欢迎斧正！）Sql 练习：Sql 练习50道（掌握可解大部分的sql问题）（初始化 and 1-10）Sql 练习50道（掌握可解大部分的sql问题）（11 - 20）Sql：Sql学习笔记（一）...

2019-08-29 22:24:03 127

原创 Sql 练习50道（掌握可解大部分的sql问题）（11 - 20）

题目（详解 11-20）：11.查询至少有一门课与学号为“01”的同学所学相同的同学的学号和姓名；SELECT s.sid,s.sname FROM student s,sc WHERE s.sid=sc.sid AND sc.cid IN (SELECT cid FROM sc WHERE sid=01) AND sc.sid<>01GROUP BY s.sid;...

2019-09-28 14:18:50 350

原创 Sql 练习50道（掌握可解大部分的sql问题）（初始化 and 1-10）

数据库表初始化：create table Student(sid varchar(10),sname varchar(10),sage datetime,ssex nvarchar(10));insert into Student values('01' , '赵雷' , '1990-01-01' , '男');insert into Student values('02' , '钱电'...

2019-09-22 15:09:00 313

原创 Hadoop生态圈之Kudu（一）

Apache Kudu Apache Kudu 是由 Cloudera 开源的存储引擎，可以同时提供低延迟的随机读写和高效的数据分析能力。它是一个融合 HDFS 和 HBase 的功能的新组件，具备介于两者之间的新存储组件。 Kudu 支持水平扩展，并且与 Cloudera Impala 和 Apache Spark 等当前流行的大数据查询和分析工具结合紧密...

2019-09-16 10:56:39 1318

原创 Hadoop生态圈之Hue（一）

Apache Hue HUE=Hadoop User Experience Hue 是一个开源的 Apache Hadoop UI 系统，由 Cloudera Desktop 演化而来，最后 Cloudera 公司将其贡献给 Apache 基金会的 Hadoop 社区，它是基于 Python Web 框架 Django 实现的。通过使用...

2019-09-16 10:51:14 402

原创 Hadoop生态圈之Oozie（一）

Apache Oozie Oozie 是一个用来管理 Hadoop 生态圈 job 的工作流调度系统。由 Cloudera 公司贡献给 Apache。 Oozie 是运行于 Java servlet 容器上的一个 java web 应用。 Oozie 的目的是按照 DAG（有向无环图）调度一系列的 Map/Reduce 或者 Hive 等任务。 Oozie 工作流由 hPDL（Hadoop...

2019-09-16 10:39:14 431

原创 Hadoop生态圈之Impala（一）

Apache Impala impala 是 cloudera 提供的一款高效率的 sql 查询工具，提供实时的查询效果 impala 是基于 hive 并使用内存进行计算，兼顾数据仓库，具有实时，批处理，多并发等优点。Impala 与 Hive 关系 impala 是基于 hive 的大数据分析查询引擎，直接使用 hive 的元数据...

2019-09-16 10:34:41 593

原创 Hadoop生态圈之Azkaban（一）

Azkaban1.工作流工作流（Workflow），指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流解决的主要问题是：为了实现某个业务目标，利用计算机软件在多个参与者之间按某种预定规则自动传递文档、信息或者任务。一个完整的数据分析系统通常都是有多个前后依赖的模块组合构...

2019-09-16 10:20:54 214

原创 Hadoop生态圈之Sqoop（一）

Apache Sqoop 介绍 Apache Sqoop 是在 Hadoop 生态体系和 RDBMS 体系之间传送数据的一种工具 Sqoop 工作机制是将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。 Hadoop 生态系统包括： HDFS、 H...

2019-09-16 10:07:59 494

原创 Hadoop生态圈之Flume（二）

Flume拦截器实战案例日志采集和汇总案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求：把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为：/source/logs/access/20160101/**...

2019-09-02 20:31:09 136

原创 Hive（数据仓库）Hive 调优

10.hive调优10.1 Fetch抓取Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM score;在这种情况下，Hive可以简单地读取score对应的存储目录下的文件，然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.案例实操：1）把hive.fetch....

2019-09-02 20:23:36 313

原创 Hive（数据仓库）数据压缩、数据存储格式

7.hive的数据压缩在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽**7.1 **MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否Gzipgzip...

2019-09-02 20:22:55 1182

原创 Hive（数据仓库）Hive 的查询语法、shell参数、函数

4. Hive 查询语法4.1. SELECTSELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY...

2019-09-02 20:21:02 630

原创 Hive（数据仓库） Hive 的交互方式和基本操作

1. Hive 的交互方式第一种交互方式：bin/hive第二种交互方式：使用 sql 语句或者 sql 脚本进行交互2. Hive 的基本操作2.1 数据库操作创建数据库：create database if not exists myhive;创建数据库并指定位置：create database myhive location '/myhi...

2019-09-02 20:16:00 427

原创 Sql 学习笔记（一）

1. 数据库的创建create database <数据库名称>;2. 表的创建create table <表名>(<列名1> <数据类型> <该列所需约束>, <列名1> <数据类型> <该列所需约束>, <列名1> <数据类型> <该列所需约束&g...

2019-08-29 23:00:03 131

原创 Hadoop生态圈之Flume（一）

1. 概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume在删除自己缓存的...

2019-08-29 20:19:46 688

原创 Hive（数据仓库） Hive 的安装

Hive 的安装这里我们选用hive的版本是2.1.1下载地址为：http://archive.apache.org/dist/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz下载之后，将我们的安装包上传到第三台机器的/export/softwares目录下面去第一步：上传并解压安装包将我们的hive的安装包上传到第三台服务器的/expo...

2019-08-26 20:44:48 266

原创 Hive（数据仓库）数据仓库和 Hive 的基本概念

1. 数据仓库1.1 基本概念英文名称为 Data Warehouse，可简写为 DW 或 DWH。数据仓库的目的是构建面相分析的集成化数据环境，为企业提供决策支持（Decision Support）。数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表...

2019-08-26 20:41:27 2570

原创 Hadoop_day06_MapReduce 的经典案例（求共同好友）

1. 需求分析以下是qq的好友列表数据，冒号前是一个用户，冒号后是该用户的所有好友（数据中的好友关系是单向的）A:B,C,D,F,E,OB:A,C,E,KC:A,B,D,E,I D:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,...

2019-08-26 20:22:21 223

原创 Hadoop_day06_MapReduce 的 Reduce 和 Map 端实现 join 操作

一、Reduce 端1. 需求商品表id pname category_id price P0001 小米5 1000 2000 P0002 锤子T1 1000 3000 订单数据表id date pid amount 1001 20150710 P0001 2 1002...

2019-08-26 20:12:40 151

原创 Hadoop_day06_MapReduce 的工作机制详解

1. MapTask 工作机制简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲...

2019-08-26 20:03:28 132

原创 Hadoop_day05_MapReduce 的经典案例（流量统计）

需求一：统计求和统计每个手机号的上行数据包总和，下行数据包总和，上行总流量之和，下行总流量之和分析：以手机号码作为key值，上行流量，下行流量，上行总流量，下行总流量四个字段作为value值，然后以这个key，和value作为map阶段的输出，reduce阶段的输入1.1 自定义SumBeanpublic class SumBean implements Writa...

2019-08-20 20:21:40 788

原创 Hadoop_day05_MapReduce 的 Shuffle 详解（分区、排序、规约、分组）

一、分区在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当中进行处理例如: 为了数据的统计, 可以把一批类似的数据发送到同一个 Reduce 当中, 在同一个 Reduce 当中统计相同类型的数据, 就可以实现类似的数据分区和统计等其实就是相同类型的数据, 有共性的数据, 送到一起去处理 ...

2019-08-20 20:04:13 1253

原创 Hadoop_day05_MapReduce 的入门案例（WordCount：统计单词出现次数）

1. 数据格式准备1.1 创建一个新的文件cd /export/serversvim wordcount.txt1.2 向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop1.3 上传到 HDFShdfs dfs -mkdir /wordcount/hd...

2019-08-20 19:45:52 364

原创 Hadoop_day05_MapReduce相关概念

1.MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即对ma...

2019-08-20 19:39:20 147

原创 Hadoop_day04_HDFS的API操作

1、在 Windows 下配置 Hadoop 环境1.1 未配置会产生的问题缺少 winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少 hadoop.dllUnable to load native-hadoop library for your pl...

2019-08-20 19:29:51 165

原创 Hadoop_day03_HDFS的命令行操作

--查看路径 hdfs dfs -ls -R path--查看内容 hdfs dfs -cat path--创建文件夹 hdfs dfs -mkdir -p path--本地上传到HDFS --拷贝 hdfs dfs -put localsrc dst--本地上传到HDFS --剪切 hdfs dfs -moveFromLocal local...

2019-08-17 19:48:04 146

原创 Hadoop_day03_HDFS重点概念（架构、读写过程、机架感知、NameNode、DataNode、SecondaryNameNode）

一、HDFS的架构：1：Client（客户端）文件切分。文件上传到HDFS的时候，Client将文件切分成一个个block，然后进行存储与NameNode进行交互，获取文件的位置信息与DataNode进行交互，读取或者写入数据 Client提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS 2：NameNode（master，一个管理者）...

2019-08-17 19:46:45 266

原创 Hadoop_day02_Zookeeper的深入理解和操作（客户端、API（Java））

1. zookeeper的数据类型ZooKeeper 的数据模型，在结构上和标准文件系统的非常相似，拥有一个层次的命名空间，都是采用树形层次结构. ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样，ZooKeeper 树中的每个节点可以拥有子节点。 zookeeper树和文件系统的目录树不同之处：Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元...

2019-08-15 20:12:27 191

原创 Hadoop_day01_Zookeeper概述及安装

Zookeeper1.Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件，也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zooke...

2019-08-15 19:46:37 225

原创 Hadoop_day01_hadoop辅助软件（Linux）

辅助软件JDK&mysql1.三台机器安装jdk1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_...

2019-08-15 19:42:14 208

原创 Hadoop_day01_hadoop环境搭建（Linux）

集群环境搭建1.注意事项1.1 确认所有VmWare服务已启动1.2 确认VmWare网关地址1.3 确认VmNet8配置好IP地址和DNS2.复制虚拟机2.1 将虚拟机文件夹复制三份，并分别重命名, 并使用VM打开重命名2.2设置三台虚拟机内存需要三台虚拟机, 并且需要同时运行, 所以总体上的占用为: 每台虚拟机内存×3每台虚拟机内存 \times 3每台虚拟机内...

2019-08-15 19:37:42 293

原创 Hadoop_day01_大数据的概念及磁盘存储

Hadoop预备知识1.大数据课程导论1.1.大数据概念大数据bigdata，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte...

2019-08-15 19:27:18 858

原创 Java框架_SSM_day01_SSM的初次整合

目录一、SSM整合步骤1.1 整合步骤概述1.1.1 整合思路1.1.2 整合步骤1.2 开发准备1.2.1 导入 jar 包1.2.2 创建实体类1.2.3 创建 Dao1.2.4 创建 Service1.2.5 创建 Controller1.3 搭建 Spring 的环境1.3.1 applicationContext.xml1.3.2 lo...

2019-08-11 19:05:34 230

原创 Java框架_Spring5_day09_事务控制

十一、Spring 中的事务控制11.1 Spring 事务控制的API11.1.1 PlatformTransactionManager此接口是spring的事务管理器，它里面提供了我们常用的操作事务的方法，如下图：我们在开发中都是使用它的实现类： org.springframework.jdbc.datasource.DataSourceTransactio...

2019-08-10 16:49:51 255 1

原创 Java框架_Spring5_day08_JdbcTemplate的简单使用

十、Spring 中的 JdbcTemplate10.1 概述 JdbcTemplate 是spring框架中提供的一个对象，是对原始Jdbc API对象的简单封装。10.2 准备工作导入 jar 包 <dependencies> <dependency> <groupId>org....

2019-08-10 16:03:42 186

原创前端_CSS

CSS：页面美化和布局控制1. 概念： Cascading Style Sheets 层叠样式表 * 层叠：多个样式可以作用在同一个html的元素上，同时生效2. 好处： 1. 功能强大 2. 将内容展示和样式控制分离 * 降低耦合度。解耦 * 让分工协作更容易 * 提高开发效率3. CSS的使用：CSS与html...

2019-08-10 15:43:49 167 1

原创前端_HTML

web概念概述JavaWeb：使用Java语言开发基于互联网的项目软件架构： 1. C/S: Client/Server 客户端/服务器端 * 在用户本地有一个客户端程序，在远程有一个服务器端程序 * 如：QQ，迅雷... * 优点： 1. 用户体验好 ...

2019-08-10 15:43:25 114

原创 Java框架_SpringMVC_day07_拦截器

目录八、SpringMVC 中的拦截器8.1 拦截器的作用8.2 自定义拦截器8.2.1 数据准备8.2.2 自定义拦截器8.2.3 配置拦截器类8.3 配置多个拦截器8.3.1 再编写一个拦截器8.3.2 配置拦截器8.3.3 结果显示八、SpringMVC 中的拦截器8.1 拦截器的作用 Spring MVC 的处理器拦截器类似...

2019-08-10 11:27:24 166

原创 Java框架_SpringMVC_day06_异常处理

目录七、SpringMVC 的异常处理7.1 异常处理思路7.2 SpringMVC 的异常处理7.2.1 数据准备7.2.2 编写自定义异常类7.2.3 编写异常处理器7.2.4 配置异常处理器7.2.5 Controller7.2.6 error.jsp七、SpringMVC 的异常处理7.1 异常处理思路系统中异常包括两类：预期异...

2019-08-10 10:57:04 212 2

空空如也

空空如也