自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程裕强的专栏

学习笔记(1.01^365=37.78,0.99^365=0.025)

  • 博客(551)
  • 资源 (7)
  • 收藏
  • 关注

原创 Spark2.x学习笔记:8、 Spark应用程打包与提交

第8章 Spark应用程打包与提交8.1 应用程序打包(1)Maven打包 进入Maven项目根目录(比如前一章创建的simpleSpark项目,进入simpleSpark项目根目录可以看到1个pom.xml文件),执行mvn package命令进行自动化打包。 Maven根据pom文件里packaging的配置,决定是生成jar文件还是war文件,并放到target目录下。 这时Mave

2017-09-16 22:32:36 3033

原创 CentOS 7.x 安装Sublime Text 3.0正式版

CentOS 7.x 安装Sublime Text 3.0正式版Sublime Text 3.0 正式版终于发布了!废话不多说,直接敲命令安装!1、安装 GPG 公钥rpm -v –import https://download.sublimetext.com/sublimehq-rpm-pub.gpg[root@hadron ~]# rpm -v --import https://downlo

2017-09-15 15:24:34 7966 2

原创 Spark2.x学习笔记:7、Spark应用程序设计

第7章 Spark应用程序设计7.1 基本流程1.创建SparkContext对象每个Spark应用程序有且仅有一个SparkContext对象,封装了Spark执行环境信息2.创建RDD可以冲Scala集合或者Hadoop数据集上创建3.在RDD之上进行转换和ActionMapReduce只提供了map和reduce两种操作,而Spark提供了多种转换和action函数4.返回结果保存到H

2017-09-12 15:06:21 1520

原创 Spark2.x学习笔记:6、在Windows平台下搭建Spark开发环境(Intellij IDEA)

第6章 在Windows平台下搭建Spark开发环境(Intellij IDEA+Maven)6.1 集成开发环境IDE为了方便应用程序开发与测试,提高开发效率,一般使用集成开发工具IDE。同样,为了方便Spark应用程序编写和测试,可以选择集成开发工具Intellij IDEA或Eclipse。由于Intellij IDEA对Scala更好的支持,大多Spark开发团队选择了Intellij ID

2017-09-10 21:15:45 9982 6

原创 Spark2.x学习笔记:5、Spark On YARN模式

Spark学习笔记:5、Spark On YARN模式有些关于Spark on YARN部署的博客,实际上介绍的是Spark的 standalone运行模式。如果启动Spark的master和worker服务,这是Spark的 standalone运行模式,不是Spark on YARN运行模式,请不要混淆。Spark在生产环境中,主要部署在Hadoop集群中,以Spark On YA...

2017-09-06 11:21:11 22697 4

原创 Spark2.x学习笔记:4、Spark程序架构与运行模式

第4章 Spark程序架构与运行模式4.1 Spark程序最简架构所有的Spark程序运行时,主要由两大类组件Driver和Excutor构成。每个Spark程序运行时都有一个Driver,Driver是进程包含了运行所需要的CPU和内存等资源,Driver是我们应用程序main函数所在进程。比如当我们运行一个spark-shell时,就创建了一个driver 程序 。Executor可以有多个

2017-09-05 22:29:00 2120

原创 Spark2.x学习笔记:3、 Spark核心概念RDD

Spark学习笔记:第3章 Spark核心概念RDD3.1 RDD概念弹性分布式数据集(Resilient Distributed Datasets,RDD) ,可以分三个层次来理解:数据集:故名思议,RDD 是数据集合的抽象,是复杂物理介质上存在数据的一种逻辑视图。从外部来看,RDD 的确可以被看待成经过封装,带扩展特性(如容错性)的数据集合。分布式:RDD的数据可能在物理上存储在多个节点的磁

2017-08-30 16:01:59 3139

原创 Spark2.x学习笔记:2、Scala简单例子

Spark学习笔记2:Spark2.2伪分布式模式2.1 安装JDK8在前一节http://blog.csdn.net/chengyuqiang/article/details/77671748我们已经安装了JDK8,这里不再累述。2.2 安装Scala(1)获取下载地址 通过Spark官网下载页面http://spark.apache.org/downloads.html 可知“Note: S

2017-08-29 15:15:08 4084

原创 Spark2.x学习笔记:1、Spark2.2快速入门(本地模式)

Spark学习笔记1:Spark2.2快速入门1.1 Spark本地模式学习Spark,先易后难,先从最简单的本地模式学起。本地模式(local),常用于本地开发测试,解压缩Spark软件包就可以用,也就是所谓的“开封即用”1.2 安装JDK8(1)下载 登录Oracle官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-d

2017-08-29 10:28:15 7373

原创 Hadoop基础教程-第14章 大数据面试笔试题汇总(持续更新)

第14章 大数据面试笔试题汇总(持续更新)注意:大部分题目来自互联网,部分题目来自同事口述 14.1 Zookeeper(1)Zookeeper是什么框架 分布式的、开源的分布式应用程序协调服务,原本是Hadoop、HBase的一个重要组件。它为分布式应用提供一致性服务的软件,包括:配置维护、域名服务、分布式同步、组服务等 (2)说说你对zookeeper的理解 Z

2017-08-28 15:33:54 6021

原创 Hadoop基础教程-第13章 源码编译(13.4 Hive2.1.1源码编译)

第13章 源码编译与RPM打包13.4 Hive源码编译13.4.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hive/单击stable-2下载源码apache-hive-2.1.1-src.tar.gz13.4.2 环境准备Hive2.1.1的源码包需要JDK1.8。如果使用JDK1.7编译是总是产生各种奇怪的问题,GC overhead l

2017-08-28 15:11:44 816

原创 Hadoop基础教程-第13章 源码编译(13.3 HBase1.2.6源码编译)

第13章 源码编译与RPM打包13.3 HBase源码编译13.3.1 下载源码https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/ 单击“stable”连接 下载源码hbase-1.2.6-src.tar.gz 13.3.2 解压缩[root@cyq opt]# tar -zxvf hbase-1.2.6-src.tar.g[root@cyq

2017-08-28 15:07:43 1211

原创 Hadoop基础教程-第13章 源码编译(13.2 Hadoop2.7.3源码编译)

第13章 源码编译与RPM打包13.2 Hadoop源码编译13.2.1下载Hadoop源码包(1)到官网http://hadoop.apache.org/releases.html下载2.7.3的source源码包(2)解压缩tar -zxvf hadoop-2.7.3-src.tar.gz -C /opt(3)打开解压目录下的BUILDING.txt,编译过程和需要的软件其实就是根据这个文档里的

2017-08-28 14:46:24 1053

原创 Hadoop基础教程-第13章 源码编译(13.1 Zookeeper源码编译)

第13章 源码编译13.1 Zookeeper源码编译13.1.1 安装Ant注意,不要下载最新版,下载指定版本 http://archive.apache.org/dist/ant/binaries/apache-ant-1.9.4-bin.tar.gz解压缩[root@hadron ~]# cd apache-ant-1.9.4/[root@hadron apache-ant-1.9.4]#

2017-08-28 14:42:35 726

原创 Hadoop基础教程-第12章 Hive:进阶(12.5 Hive外表)(草稿)

第12章 Hive:进阶12.5 Hive外表12.5.1 准备数据[root@nb0 data]# vi gen.sh[root@nb0 data]# cat gen.sh#!/bin/shfor i in {1..100000};do echo -e $i'\t'$RANDOM'\t'$RANDOM'\t'$RANDOMdone;[root@nb0 data]# sh g

2017-08-28 14:32:14 889

原创 Hadoop基础教程-第12章 Hive:进阶(12.4 Hive Metastore)(草稿)

第12章 Hive:进阶12.4 Hive Metastore12.4.1 三种配置方式Hive Metastore有三种配置方式,分别是:Embedded Metastore Database (Derby) 内嵌模式 Local Metastore Server 本地元存储 Remote Metastore Server 远程元存储12.4.2 Metastore作用metadata即元数据

2017-08-27 10:51:27 892

原创 Hadoop基础教程-第12章 Hive:进阶(12.3 HiveServer2)(草稿)

第12章 Hive:进阶12.3 HiveServer212.3.1 HiveServer1HiveServer是一种可选服务,允许远程客户端可以使用各种编程语言向Hive提交请求并检索结果。HiveServer是建立在Apache ThriftTM(http://thrift.apache.org/) 之上的,因此有时会被称为Thrift Server,这可能会导致混乱,因为新服务HiveServ

2017-08-26 22:37:38 873

原创 Hadoop基础教程-第12章 Hive:进阶(12.2 自定义函数)(草稿)

第12章 Hive:进阶12.2 自定义函数12.2.1 UDP<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http:/

2017-08-25 23:32:09 733

原创 Hadoop基础教程-第12章 Hive:进阶(12.1 内置函数)(草稿)

第12章 Hive:进阶12.1 内置函数为了方便测试Hive的内置函数,需要构造一个类似于Oracle的dual虚表hive> create table dual(value string);OKTime taken: 0.117 secondshive>hive> insert into dual values("test");WARNING: Hive-on-MR is depreca

2017-08-20 21:33:32 1562

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.8 HQL:排序)(草稿)

第11章 Hive:SQL on Hadoop11.8 HQL:排序11.8.1 order byHive 中的 order by与SQL 中的order by语义相同,会对查询结果进行全局排序,但是Hive 语句最终要转换为 MapReduce 程序放到 Hadoop 分布式集群上去执行,多个Mapper 后汇集到一个 Reducer 上执行,如果结果数据量大,那就会造成 Reduce 执行相当漫

2017-08-20 17:39:21 850

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.7 HQL:数据查询)(草稿)

第11章 Hive:SQL on Hadoop11.7 HQL:数据查询11.7.1 limit 子句11.7.1 where 子句

2017-08-13 21:49:15 1085

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.6 HQL:DML数据操纵)(草稿)

第11章 Hive:SQL on Hadoop11.6 HQL:DML数据操纵11.6.1 装载数据

2017-08-12 22:40:10 924

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.5 HQL:DDL数据定义)(草稿)

第11章 Hive:SQL on Hadoop11.5 HQL:DDL数据定义HQL中数据定义部分,也就是DDL,主要包括数据库定义和数据表的定义。

2017-08-12 16:11:32 1085

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.4 数据类型和存储格式)(草稿)

第11章 Hive:SQL on Hadoop11.4 Hive 数据类型和存储格式11.4.1 数据类型(1)基本类型 Hive 支持关系型数据中大多数基本数据类型, 类型 描述 示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 1Y SMALLINT 2个字节的有符号整数,-32768~3

2017-08-07 09:49:01 1161

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.3 Hive 快速入门)

第11章 Hive:SQL on Hadoop11.3 Hive数据类型与应用11.3.1 基本数据类型Hive 支持关系型数据中大多数基本数据类型, 类型 描述 示例 BOOLEAN true/false TRUE TINYINT 1字节的有符号整数 -128~127 1Y SMALLINT 2个字节的有符号整数,-32768~32767 1S

2017-08-06 21:15:24 1874

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.2 Hive安装与配置)(草稿)

第11章 Hive:SQL on Hadoop11.2 Hive安装与配置11.2.1 安装元数据库Hive的元数据和数据是分开存放的,数据存放在HDFS上,而元数据库默认是存储在Hive自带的Derby数据库。由于Derby只支持同时一个用户访问Hive,所以我们将换成MySQL/MariaDB作为Hive元数据库。(1)安装数据库 CentOS 6.x系统可以安装MySQL,CentOS 7.

2017-08-06 10:49:04 1715

原创 Hadoop基础教程-第11章 Hive:SQL on Hadoop(11.1 Hive 介绍)(草稿)

第11章 Hive:SQL on Hadoop11.1 Hive 介绍11.1.1 认识HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的

2017-08-05 18:08:16 1043

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.7 HBase 批量导入)

第10章 HBase:Hadoop数据库10.7 HBase 批量上传10.7.1 ImportTsv(1)介绍ImportTsv是HBase官方提供了基于mapreduce进行批量数据导入的工具,ImportTsv可以将HDFS上的TSV格式(默认制表符分隔\t,或者自定义分隔符的其他格式数据文件也可,逗号‘,’分隔的txt亲测可以)的数据文件通过命令简单方便地导入到HBase中,对于大数据量的导

2017-08-05 17:32:04 1384

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.6 HBase API)

第10章 HBase:Hadoop数据库10.6 HBase API10.6.1 HBase API介绍前面我们已经学习了通过HBase Shell命令来操作HBase,本质上是通过Java API进行操作的。所以Java API操作HBase是最直接、最原生的方式。10.6.2 Windows+Eclipse+Maven+HBase(1)编辑Windows系统的hosts文件C:\Windows\

2017-07-29 21:44:07 1186

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.5 HBase Shell)(草稿)

第10章 HBase:Hadoop数据库10.5 HBase Shell10.5.1http://hbase.apache.org/book.html#quickstartProcedure: Use HBase For the First Time Connect to HBase进入HBase Shell[root@node1 ~]# hbase shell2017-03-18 17:45:

2017-07-25 23:38:22 1750

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.4 NTP时间同步)(草稿)

第10章 HBase:Hadoop数据库10.4 时间同步10.4.1 为什么需要时间同步10.4.1 ntp服务端(1)安装ntp[root@node1 ~]# yum install -y ntp.....Installing: ntp x86_64

2017-07-25 22:42:42 935

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.3 HBase安装与配置)(草稿)

第10章 HBase:Hadoop数据库10.3 HBase安装与配置10.3.1 HBase下载HBase官方网址:http://hbase.apache.org/ 下载推荐的当前稳定版1.2.610.3.2 HBase安装(1)上传软件包。通过XShell将HBase软件包上传到集群中的一个节点,比如node1 (2)解压缩软件包[root@node1 ~]# tar -zxvf hba

2017-07-23 16:46:58 1184

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.2 HBase基本概念、框架)(草稿)

第10章 HBase:Hadoop数据库10.2 HBase基本概念、框架本节内容,大多是从网络上汇总而来,并做了一定总结修改。10.2.1 HBase的特点大:一个表可以有上亿行,上百万列。面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。(对于关系数据库,空值位置必须存储NU

2017-07-23 16:06:50 1589

原创 Hadoop基础教程-第10章 HBase:Hadoop数据库(10.1 NoSQL介绍)(草稿)

第10章 HBase:Hadoop数据库10.1 NoSQL介绍10.1.1 NoSQL简介随着互联网技术(互联网+,物联网)发展,特别是大数据时代到来,我们需要存储处理更多数据,这种需求远远超出传统关系型数据库的存储和处理能力。 为了应对这种情形,我们需要不停的扩展。扩展分为两类:一种是纵向扩展,即购买更好的机器,更多的磁盘、更多的内存等等;另一种是横向扩展,即购买更多的机器组成集群。在巨大的规

2017-07-22 22:43:36 1622

原创 Hadoop基础教程-第9章 HA高可用(9.4 YARN 高可用)(草稿)

第9章 HA高可用9.4 YARN 高可用9.4.1 RM单点故障http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html ResourceManager(RM)负责跟踪群集中的资源,并调度应用程序(例如MapReduce作业)。在Hadoop 2.4之...

2017-07-22 22:12:45 2292

原创 Hadoop基础教程-第9章 HA高可用(9.3 HDFS 高可用运行)(草稿)

第9章 HA高可用9.3 HDFS 高可用运行9.3.1 HA节点规划 节点 IP Zookeeper NameNode JournalNode DataNode node1 192.168.80.131 Y Y Y Y node2 192.168.80.132 Y Y Y Y node3 192.168.80.133

2017-07-12 22:21:00 1704 2

原创 Hadoop基础教程-第9章 HA高可用(9.2 HDFS 高可用配置)(草稿)

第9章 HA高可用9.2 HDFS 高可用配置9.2.1 准备工作因为前面我们已经配置启动了普通的Hadoop相关服务,需要先停止相关服务并清除数据。 (1)停止Hadoop服务 首先停止YARN[root@node1 ~]# stop-yarn.shstopping yarn daemonsstopping resourcemanagernode2: s...

2017-07-08 21:03:30 1282 1

原创 Hadoop基础教程-第9章 HA高可用(9.1 HDFS 高可用介绍)(草稿)

第9章 HA高可用9.1 HDFS 高可用介绍HDFS HA(High Availability)高可用配置官方参考网址 http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html9.1.1 背景Prior to Hadoop

2017-07-08 17:27:32 1067

原创 Hadoop基础教程-第8章 Zookeeper(8.5 Zookeeper内存数据库)(草稿)

第8章 Zookeeper8.5 Zookeeper内存数据库8.5.2 内存数据库介绍ZooKeeper的数据模型是一棵树,而从使用角度看, Zookeeper就像一个内存数据库一样。在这个内存数据库中,存储了整棵树的内容,包括所有的节点路径、节点数据及其ACL信息等,Zookeeper会定时将这个数据存储到磁盘上。 Zookeeper内存数据库是通过ZKDatabase类实现, 内部属性包括

2017-07-08 15:57:48 1073

原创 Hadoop基础教程-第8章 Zookeeper(8.4 Zookeeper集群模式)(草稿)

第8章 Zookeeper单机模式的ZooKeeper便于评估,开发和测试。但在生产中,我们应该以集群模式运行ZooKeeper。8.4 Zookeeper集群模式8.4.1 集群模式介绍一个 ZooKeeper 集群通常由一组机器组成,一般 3 台以上就可以组成一个可用的 ZooKeeper 集群了。 组成 ZooKeeper 集群的每台机器都会在内存中维护当前的服务器状态,并且每台机器之间都会

2017-07-06 22:24:59 1004

小巧的屏幕调节软件flux

推荐一款非常好用的小巧的屏幕调节软件flux,可以按照当地时间自动调节屏幕亮度。 友情提示,由于google地图的数据不可用,建议直接输入本地经纬度即可, 比如北京输入:40N,116E 比如上海输入:31N,161E

2019-08-10

OraClient Lite Setup.7z

Oracle客户端精简版,安装PL/SQL Developer的必备软件。

2019-08-10

基于elasticsearch 6.x的新闻搜索项目代码

基于elasticsearch 6.x的新闻搜索项目代码,SpringBoot2.x项目形式,使用Java High Level REST Client。包含了WebMagic爬虫程序

2019-07-17

Xftp6官方个人版

Xftp6官方个人版,免费版,配合XShell6使用。 也可以到官网下载https://www.netsarang.com/download/free_license.html

2018-11-11

Xshell 6 官方个人版

Xshell 6 官方个人版。也可以直接去官方网址注册下载https://www.netsarang.com/download/free_license.html

2018-11-11

hibernate5+spring4+springmvc+maven基本框架整合样例代码

hibernate5+spring4+springmvc+maven基本框架整合样例代码

2018-07-13

XShell免费版

最新版的XShell取消了学校免费授权。只好切换到之前的版本, 安装时请选择学校版,不要选择商业版。永久免费。

2018-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除