wtzhm-CSDN博客

原创 Sqoop概述

Sqoop安装与概述1. sqoop概述Sqoop官网：http://sqoop.apache.org/sqoop介绍 Sqoop即SQL to Hadoop，是一个将数据在关系数据库（如 MySQL/Oracle 等）和大数据产品（如 Hadoop/Hive/HBase等）之间导入/导出的有效工具，底层是通过MapReduce作业来完成。它充分利用了MapReduce的并行特...

2018-08-18 14:40:25 309

原创 HIVE基础详解

HIVE基础详解1.修改配置的三种方法修改${HIVE_HOME}/conf/hive-site.xml配置文件在Hive中，所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中，如果需要对默认的配置进行修改，可以创建一个hive-site.xml文件,所有的配置都是放在标签之间，一个configuration标签里面可以存在多个标签。标签...

2018-08-15 14:37:08 875

原创 Spark Streaming

Spark Streaming1. SparkStreaming概述Spark Streaming用于流式数据的处理，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、w...

2018-07-27 15:14:32 196

原创 Kafka详解

kafka详解1.概述Kafka 是一个基于分布式的消息发布-订阅系统，它被设计成快速、可扩展的、持久的。Kafka 在主题当中保存消息的信息。生产者向主题写入数据，消费者从主题读取数据。2.关键字解析Broker Kafka 集群包含一个或多个服务器，其中的服务器被称为 broker。Topic 一个 topic 可以认为是一类消息，每个 topic 将被分成多个...

2018-07-23 16:04:32 565

原创 Scala操作关系数据库增删改查

Scala操作关系数据库增删改查1. 引入依赖 <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.38</ver...

2018-07-01 15:30:14 2723 1

原创 SparkSql编程

SparkSql编程1. 添加依赖文件首先在maven项目的pom.xml中添加Spark SQL的依赖&amp;amp;amp;amp;lt;dependency&amp;amp;amp;amp;gt; &amp;amp;amp;amp;lt;groupId&amp;amp;amp;amp;gt;org.apache.spark&amp;amp;amp;amp;lt;/groupId&a

2018-07-01 11:51:03 212

原创 Spark SQL

Spark SQL1. SparkSql概述Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，...

2018-07-01 10:22:38 205

Spark任务执行流程DAGScheduler 和TaskScheduler都在Driver端（开启spark-shell的那一端），main函数创建SparkContext时会使得driver和Master节点建立连接，Master会根据任务所需资源在集群中找符合条件的worker.然后Master对worker进行RPC通信，通知worker启动Executor ，Executor会和Dr...

2018-06-30 23:25:07 846

原创 spark checkpoint

Spark的checkpoint1. 为什么要使用checkpoint当一个计算有上百个甚至更多个rdd的时候，如果前20个rdd的计算结果重复被使用，这个时候我们就可以使用checkpoint将前20个rdd的计算结果缓存到本地。大大提高运算效率，当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint...

2018-06-30 21:36:52 1490

原创 Spark的broadcast

Spark的Broadcast1. 概述在实际场景中，当1个function传递到1个spark operation（例如：map、reduce）时，这个function是在远程的集群node上被执行的。这些变量会被复制到每一台机器，在远程机器上不会更新这些变量，然后又传送回driver program。跨tasks共享读写变量的支持，通常是低效率的。然而，spark提供了2种通用的共...

2018-06-30 09:32:23 5810

原创 Spark自定义分区

Spark分区与自定义分区1.概述分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。2.分区原则RDD分区的一个分区原则：尽可能是分区的个数等于集群核数目无论是本地模式、S...

2018-06-29 11:53:41 1258 2

原创 Spark自定义排序

Spark自定义排序1. 概述 ###在spark中，利用rdd的sortBy函数进行排序，我们只能单一对某个元素，然而这并不能解决工作中的实际业务。2. 自定义排序步骤 ###定义一个类，继承Ordered 实现Serializable序列化（实体要在网络之间传递）重写compare方法3. 示例 ###示例情景：根据美女的颜值与年龄进行排序，如...

2018-06-29 10:32:37 709 5

原创 Rdd详解

RDD 详解1. RDD概述RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。2. R...

2018-06-20 14:53:47 1873

原创 Spark概述详解

Spark概述详解1. spark概念官网：http://spark.apache.org，Spark是一种快速、通用、可扩展的大数据分析引擎。 Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数...

2018-06-18 00:42:14 2579

原创 Storm基础

Storm基础1. 离线计算与流式计算的概述离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示，flum获取数据，Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据流式计算：数据实时产生、数据实时传输、数据实时计算、实时展示，Flume实时获取数据、Kafka/metaq实时数据存储、Storm/JStorm实时数据计...

2018-03-20 20:01:06 253

原创 Hbase安装与概述

HBase1. hbase的概述HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群，HBASE利用Hadoop HDFS作为其文件存储系统，HBASE利用Hadoop MapReduce来处理HBASE中的海量数据，HBASEHBASE利用通过zookeeper协调查找数据，访问速度快。2....

2018-03-20 14:16:16 217

原创 MapReduce原理

MapReduce原理1. Map概念与为什么要mapreduceMapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上.（1）海量数据在单机上处理因为硬件资源限制，无法胜任（2）而一旦将单机版程序...

2018-03-01 17:57:24 772

原创 Flume安装与工作机制

Flume1.Flume的概述日志采集框架Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统，Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。2.Flume工作机制Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所

2018-01-24 18:48:04 648

原创 sql基础

sql 基础distinct 语句 SELECT DISTINCT 列名称 FROM 表名称 DISTINCT 用于返回唯一不同的值 select count(distinct sno) as count form sc ; 统计学生人数and 与 or ND 和 OR 可在 WHERE 子语句中把两个或多个条件结合起来order by ORDER BY Company D

2018-01-17 18:08:36 406

原创 hive分区、分桶、sql语句

hive分区、分桶、sql语句1. sql语句1.1 创建表CREATE TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)][COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT

2018-01-16 18:31:24 6625

原创 Hive 概念与安装

Hive 概念与安装1.概述与特点Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上2.hive的优缺点优点操作接口采用类SQL语法，提供快速开发的能力

2018-01-15 14:05:28 260

原创 Hadoop HDFS 高可用

1.为什么需要HA当客户端一次操作时，先写edits，然后写fsnameSystem内存，secondnamenode周期性下载edits文件，同时把fsimage下载下来，然后把edits与fsimage合并，加载到内存中形成新的原数据。最后在持久化成一个文件（fsimage最新的fsimage)发送到namenode替换成最新的fsimage.一旦Nameno

2018-01-03 18:51:04 282

原创 Zookeeper

Zookeeper 学习总结1.概述Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务.由雅虎公司创建，是Google Chubby（主要解决分布式锁相关问题）的开源实现。ZooKeeper是一个高性能的分布式一致性解决方案，它将那些复杂的、容易出错的分布式一致性服务封装起来，构成一个高效可靠的原语集，并提供一系列简单易用的接口给用户使用。

2017-12-19 16:46:01 201

转载 hdfs工作机制

Hadoop学习笔记（二）hdfs工作机制一.HDFS的重要特性　　1. HDFS是一个文件系统，用于存储和管理文件，通过统一的命名空间（类似于本地文件系统的目录树）。它是分布式的，服务器集群中各个节点都有自己的角色和职责。　　2. HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中...

2017-11-29 14:39:20 505

原创 Hadoop概念&命令操作&java操作

Hadoop概念&amp;amp;amp;命令操作&amp;amp;amp;java操作1. Hadoop概述HADOOP是apache旗下的一套开源软件平台，利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理HADOOP的核心组件有： HDFS（分布式文件系统） YARN（运算资源调度系统） MAPREDUCE（分布式运算编程框架）2. HDFS的概念hdfs是一个文件系统，...

2017-11-27 19:58:48 582

原创 Linux网络配置

VMware Linux网络配置

2017-11-14 10:42:27 343

原创 linux命令

Linux基础命令1.Linux文件与目录管理pwd 这个命令打印出当前所在目录cd 进入到某一个目录 , cd ./ 指的是当前目录,cd ../ 指的是当前目录的上一级目录 cd ../../../ ,跳到当前目录的上一级的上一级目录。mkdir 创建一个目录 mkdir aa 这是相对路径的写法，在当前目录创建一个文件夹 mkdir /data 这是绝对...

2017-11-13 18:09:27 446

原创 redis

Redis基础 Redis命令

2017-11-10 15:55:09 332

原创 Redis的安装配置运行

Redis的安装,配置,连接

2017-11-10 15:08:47 147

原创 java反射

Java反射

2017-10-30 23:47:30 435

原创 Java注解

Java注解

2017-10-28 15:03:17 213

原创 java类的加载机制

Java类的加载机制

2017-10-28 11:07:01 389

原创 java泛型

java 泛型

2017-10-25 19:53:34 248

原创 java异常处理

java异常处理基础

2017-10-24 18:15:42 1502

转载反编译

在学习Android开发的过程你，你往往会去借鉴别人的应用是怎么开发的，那些漂亮的动画和精致的布局可能会让你爱不释手，作为一个开发者，你可能会很想知道这些效果界面是怎么去实现的，这时，你便可以对改应用的APK进行反编译查看。下面是我参考了一些文章后简单的教程详解。（注：反编译不是让各位开发者去对一个应用破解搞重装什么的，主要目的是为了促进开发者学习，借鉴好的代码，提升自我开发水平。）

2017-02-10 15:55:06 201

翻译原理

1. 今天你看到了，你做了，那或许未来的某一天，你会感谢今天努力的你。但如果你看到了，没有做，或许你依旧还是那个，整天抱怨工作没劲，加班太累的人，然后在碌碌无为和怨天尤人中度过。 2. 在程序员这条路上，努力，你就有很大希望成就自己的目标和梦想。不努力，那你就基本上原地踏步下去，直到被后浪拍死在沙滩上。 3. 如何抉择，其实完全看你自己

2017-02-10 15:53:26 218 1

转载感悟期望

1.你做的再好，也还是有人指指点点；你即便一塌糊涂，也还是有人唱赞歌。所以不必掉进他人的眼神，你需要讨好的，仅仅是你自己。2.很多时候我们都知道要做什么，但是知道了以后，仍然会不做，脑袋之所以是圆的，那是为了满足我们不断转换思路的需要，找解决方案要比纠结原因的优先级高，如果自己脚上没磨出老茧，就不要拿鞭子赶别人。3.每一天心情总是不好，为了很多事情。总以为别人做的事情在自己眼里是自

2017-02-10 15:49:16 192

原创 Studio基本配置

1. 配置自动导入包 file ----> settings-----> Editor------> General ---> Auto Import ------> 勾选 Optimize imports on the fly 与 Add unambiguous imports on the fly 2. 安装必要的插件 file ----> se

2016-12-01 17:33:49 350

原创代理设计模式

代理设计模式：首先定义一个接口：用于抽象出一个具体事务的共有方法：作为抽象方法：打游戏：登录-----》杀怪 -----》升级 public interface IGamePlayer{ public void login(String user,String password){ //登陆游戏

2015-06-17 16:31:31 250

原创模板方法设计模式

模板方法设计模式 1.定义一个操作中的算法的框架，而将一些步骤延迟到子类中，使得子类可以改变一个算法的结构即可重定义该算法的某些特定的步骤。 2.具体实现：package com.njtc.edu.template; public abstract class Worker { protect

2015-06-17 16:17:06 278

spark-streaming-flume-sink_2.11_2.1.1.jar

Spark SQL 入门到精通到项目实战的世界（全套日志分析）日志文件

空空如也