![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
liangzelei
这个作者很懒,什么都没留下…
展开
-
教你如何查看识别hadoop是32位还是64位
1.从哪些地方可以识别hadoop是32位还是64位?2.hadoop本地库在什么位置? 本文链接:http://www.aboutyun.com/thread-12796-1-1.htmlhadoop在安装的时候,我们需要知道hadoop版本是32位还是64位。hadoop官网本来提供的都是32位,因为我们大部分都是64位,所以不得不编译。后来官网从hadoop2.5版本开始就提...转载 2018-07-24 15:05:07 · 2712 阅读 · 0 评论 -
Spark 广播变量
广播变量用来高效分发较大的对象。向所有工作节点发送一个 较大的只读值,以供一个或多个 Spark 操作使用。比如,如果你的应用需要向所有节点发 送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起 来都很顺手。传统方式下,Spark 会自动把闭包中所有引用到的变量发送到工作节点上。虽然这很方便,但也很低效。原因有二:首先,默认的任务发射机制是专门为小任务进行优化的;其次,...原创 2018-06-06 13:26:07 · 5085 阅读 · 0 评论 -
RDD 累加器
累加器累加器用来对信息进行聚合,通常在向 Spark 传递函数时,比如使用map() 函数或者用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本, 更新这些副本的值也不会影响驱动器中的对应变量。 如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。针对一个输入的日志文件,如果我们想计算文件中所有空行的...原创 2018-06-06 13:22:44 · 1337 阅读 · 0 评论 -
Spark Streaming概述
1、Spark Streaming用于处理流式计算问题。能够和Spark的其他模块无缝集成。2、Spark Streaming是一个粗粒度的框架【也就是只能对一批数据指定处理方法】,核心是采用微批次架构。和Storm采用的以条处理的不同。3、Spark Streaming会运行接收器来不断的接收输入的数据流,然后根据程序配置的时间,将时间范围内的所有数据打成一个RDD,发送给Spark Core去...原创 2018-06-12 10:35:27 · 12465 阅读 · 0 评论 -
数值RDD的统计操作
Spark 对包含数值数据的 RDD 提供了一些描述性的统计操作。 Spark 的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型。这些 统计数据都会在调用 stats() 时通过一次遍历数据计算出来,并以StatsCounter 对象返回。方法 含义count()RDD中的元素个数mean()元素的平均值sum()总和max()最大值min()最小值variance()...原创 2018-06-04 21:06:25 · 3880 阅读 · 0 评论 -
RDD算子 动作算子
reduce(func):通过 func 函数聚集 RDD 中的所有元素,这个功能必须是可 交换且可并联的scala> val rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] atmakeRDD at <console>:24scala...原创 2018-06-04 21:00:38 · 467 阅读 · 0 评论 -
RDD算子 转换算子
RDD 中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给 Driver 的动作时,这些转换才会真正运行。这种设计让 Spark 更加有效率地运行。常用的Transformationmap,filter,flatMap,mapPartitions,mapPartitonsWithIndex...原创 2018-06-04 15:55:17 · 1783 阅读 · 0 评论 -
基于CentOS的Hadoop源码编译支持Snappy压缩
前期准备工作jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf)hadoop-2.7.2-src.tar.gzjdk-8u171-linux-x64.tar.gzsnappy-1.1.3.tar.gzapache-maven-3.0.5-bin.tar.gzprotobuf-2.5.0.tar.gzJar包安装请以root用户执行程序JDK解压、配置环境变量 J...原创 2018-05-07 20:25:14 · 357 阅读 · 0 评论 -
Sqoop常用命令及参数
常用命令列举序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hive-tableCreateHiveTableTool创建 Hive 表5evalEvalSqlTool查看 SQL 执行结果6import-all-tablesImpor...原创 2018-05-14 10:22:07 · 6849 阅读 · 0 评论 -
Sqoop基本使用
导入数据在 Sqoop 中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用 import 关键字。、RDBMS 到 到 HDFS1) 确定 Mysql 服务开启正常2) 在 Mysql 中新建一张表并插入一些数据$ mysql -uroot -p123456mysql> create database company;...原创 2018-05-14 09:57:57 · 550 阅读 · 0 评论 -
Spark配置日志服务器
复制spark.default.conf.template到spark.default.conf将以下内容添加到spark.default.conf中spark.eventLog.enabled truespark.eventLog.dir hdfs://namenode:8021/directory修改spark.env.shexport...原创 2018-05-31 10:51:58 · 1145 阅读 · 0 评论 -
RDD、DataFrame、DataSet介绍
在 SparkSQL 中 Spark 为我们提供了两个新的抽象,分别是 DataFrame 和DataSet。他们和 RDD 有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。...原创 2018-06-07 10:32:54 · 322 阅读 · 0 评论 -
hadoop相关配置
集群配置配置:hadoop-env.shLinux系统中获取jdk的安装路径:[lzl@ hadoop101~]# echo $JAVA_HOME/opt/module/jdk1.8.0_144修改JAVA_HOME 路径:export JAVA_HOME=/opt/module/jdk1.8.0_144配置:core-site.xml<!-- 指定HDFS中NameNode的地址 --&g...原创 2018-05-31 12:12:04 · 190 阅读 · 0 评论 -
查看hdfs的fsimage和editlog
(一)名称解释fsimage,namenode的元数据镜像文件,保存在磁盘editlog,namenode操作日志fstime,最近一次的checkpoint时间metadata,一个文件存储在哪些DataNode节点的哪些位置的元数据信息NN,namenodeSNN,secondarynamenode Namenode主要维护两个文件,一个是fsimage,一个是...转载 2018-07-18 10:43:56 · 3526 阅读 · 1 评论 -
Hadoop cdh版本搭建
cdh版本下载地址本例下载的是hadoop-2.5.0-cdh5.3.6.tar.gz解压修改Hadoop配置重启Hadoop集群转载 2018-07-16 10:22:43 · 7643 阅读 · 3 评论 -
HDFS客户端的权限错误:Permission denied
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。(如果想看最终解决问题的方法拉到最后,如果想看我的问题解决思路请从上向下看)问题描述上传文件的代码:private static void uploadT...转载 2018-06-27 08:51:01 · 3335 阅读 · 0 评论 -
SparkSQL与Hive集成
1、使用内置的Hive 【hive1.2.1】 1、注意:如果发现master节点有 matestore_db出现,删除, 然后,启动客户端 配置: bin/spark-shell --master spark://master01:7077 --conf spark.sql.wareho...原创 2018-06-08 11:21:03 · 763 阅读 · 0 评论 -
SparkSQL的执行模式
1、DSL模式 【通过调用方法】dataFame.select("name").showdataFame.filter($"age" > 25).show2、SQL模式 【通过执行SQL】 1、先创建一张表: 一个SparkContext可以多次创建 sparkSession。 //Session内可访问, 一个SparkSession结束后,表自动删除。...原创 2018-06-08 10:52:22 · 708 阅读 · 0 评论 -
RDD、DataFrame、DataSet互转
如果需要RDD与DS或者DF之间操作,那么都需要引入 import spark.implicits._ 【spark不是包名,而是sparkSession对象的名称】1、RDD 《-》 DataFrame 1、RDD -》 DataFrame (确定Schema) a、直接手动确定: peopleRDD.map{x => val para = x.split(...原创 2018-06-08 10:42:55 · 1709 阅读 · 0 评论 -
SparkSQL 用户自定义函数(UDF、UDAF、开窗)
UDF函数通过spark.udf.register("funcName", func) 来进行注册使用:select funcName(name) from people 来直接使用UDAF函数弱类型需要继承UserDefineAggregateFunction并实现相关方法使用:同样是注册一个udf函数import org.apache.spark.SparkConfimport org.ap...原创 2018-06-07 16:37:30 · 6175 阅读 · 0 评论 -
Spark通过Jar包提交任务
Standalone需要通过bin/spark-submit来提交必需参数 --class --master举例如下:/home/bigdata/hadoop/spark-2.1.1-bin-hadoop2.7/bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://master01:7077 ...原创 2018-05-31 13:57:22 · 7673 阅读 · 0 评论 -
Spark的HA配置
Spark集群部署完了,但是有一个很大的问题,那就是 Master 节点存在单点故障,要解决此问题,就要借助 zookeeper,并且启动至少两个 Master 节点来实现高可靠,配置方式比较简单Spark 集群规划:master01,master02 是 Master;slave01,slave02,slave03是 Worker停止 spark 所有服务,修改配置文件 spark-env.sh...原创 2018-05-31 13:33:13 · 604 阅读 · 0 评论 -
Sqoop的安装
Sqoop 简介Apache Sqoop(TM)是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。Sqoop 于 2012 年 3 月孵化出来,现在是一个顶级的 Apache 项目。最新的稳定版本是 1.4.6。Sqoop2 的最新版本是 1.99.7。请注意,1.99.7 与 1.4.6 不兼容,且没有特征不完整,它并不打算用于生产部署。Sq...原创 2018-05-14 09:06:30 · 125 阅读 · 0 评论 -
HBase与Hive集成使用
HBase版本 1.3.1Hive版本 1.2.1环境准备$ exportHBASE_HOME=/home/admin/modules/hbase-1.3.1$ exportHIVE_HOME=/home/admin/modules/apache-hive-1.2.2-bin$ ln -s$HBASE_HOME/lib/hbase-common-1.3.1.jar $HIVE_HOME/lib/h...原创 2018-05-13 15:55:37 · 1170 阅读 · 0 评论 -
Zookeeper概述
概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式。特...原创 2018-05-09 15:50:48 · 127 阅读 · 0 评论 -
Windows下Eclipse本地调试Hadoop环境准备
Jar包准备准备Hadoop的Jar包,这里准备的是Linux(64)环境下hadoop2.7.2的打包文件hadoop-2.7.2.tar.gz1.将其下载解压到非中文目录2.进入share文件夹,找到其中所有jar包,并将jar包拷贝到_lib文件夹(自己创建,任意起名)中3.在全部jar包中查找结尾为sources.jar的jar包,并剪切到_source文件夹中(无用,可保留)4.在全部j...原创 2018-04-24 16:27:30 · 1271 阅读 · 0 评论 -
数据仓库
什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)如何优化业务流程 例如:一...原创 2018-05-01 14:26:09 · 221 阅读 · 0 评论 -
Hive的函数
系统自带的函数查看系统自带的函数hive> show functions;显示自带的函数的用法hive> desc function upper;详细显示自带的函数的用法hive> desc function extended upper;自定义函数描述Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展当Hive提供的内置函数无法...原创 2018-05-01 10:40:11 · 203 阅读 · 0 评论 -
Hive的查询
官网基本查询(Select…From) 全表和特定字段查询1)全表查询hive (default)> select * from emp;2)选择特定列查询hive (default)> select empno, ename from emp;3)注意HQL 语言大小写不敏感。 HQL 可以写在一行或者多行关键字不能被缩写也不能分行各子句一般要分行写使用缩进提高语句的可读性列别名紧跟...原创 2018-05-01 10:25:51 · 578 阅读 · 0 评论 -
Hive的DML数据操作
数据导入向表中装载数据(Load)用法:hive>load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到hive表;否则从HDFS加载数...原创 2018-04-30 22:30:17 · 142 阅读 · 0 评论 -
Hive的DDL数据定义
创建数据库创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.dbhive (default)> create database db_hive;避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive> create database db_hive;FAILED: Execution Error, retu...原创 2018-04-30 21:40:25 · 251 阅读 · 0 评论 -
Hadoop运行环境搭建基于CentOS6
修改为静态IP# vim /etc/sysconfig/network-scripts/ifcfg-eth0需要修改的内容有5项:IPADDR=192.168.1.101(设置固定IP)GATEWAY=192.168.1.2(设置网关)ONBOOT=yes (设置自动)BOOTPROTO=static (设置静态)DNS1=192.168.1.2原创 2018-04-08 16:39:50 · 232 阅读 · 0 评论 -
Hadoop框架介绍
Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop发展历史1)Lucene--Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询原创 2018-04-08 14:43:22 · 458 阅读 · 0 评论 -
Zookeeper安装
本地模式安装部署1)安装前准备:(1)安装jdk (本例使用jdk1.8)(2)下载zookeeper到linux(查找并下载zookeeper-3.4.10.tar.gz)(3)修改tar包权限(chmod u+x zookeeper-3.4.10.tar.gz)(4)解压到指定目录([lzl@hadoop1 software]$ tar -zxvf zookeeper-3.4.10.tar.g...原创 2018-05-09 16:15:43 · 140 阅读 · 0 评论 -
NTP-集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。配置时间同步实操如下:时间服务器配置(必须root用户)(1)检查ntp是否安装 [root@hadoop001 桌面]# rpm -qa|grep ntp ntp-4.2.6p5-10.el6.centos.x86_64 fontpa...原创 2018-05-10 08:37:41 · 1412 阅读 · 2 评论 -
Kafka概述
Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2)Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一...原创 2018-05-17 08:49:48 · 193 阅读 · 0 评论 -
HBase-MapReduce
通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。1) 查看HBase的MapReduce任务的所需的依赖$ bin/hbase mapredcp2) 执行环境变量的导入$ export HBASE_HOME=/h...原创 2018-05-13 13:15:18 · 1082 阅读 · 0 评论 -
HBase 基本API操作
import java.io.IOException;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Map.Entry;import org.apache.hadoop.conf.Configuration;...原创 2018-05-13 11:48:18 · 357 阅读 · 0 评论 -
Flume简介
Flume简介Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Storm用来实时处理数据,impala用来实时查询。Flume角色Source用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输...原创 2018-05-05 10:43:09 · 122 阅读 · 0 评论 -
Hive数据类型
基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数5SMALINTshort2byte有符号整数5INTint4byte有符号整数55BIGINT long8byte有符号整数5BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精度浮点数3.14...原创 2018-04-27 09:23:54 · 14781 阅读 · 0 评论