![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
归来少年Plus
这个作者很懒,什么都没留下…
展开
-
MAC docker安装单机hbase
1、创建hbase容器首先执行命令:docker run -d -h hbase01 \-p 2181:2181 -p 8080:8080 -p 8085:8085 -p 9090:9090 -p 9095:9095 \-p 16000:16000 -p 16010:16010 -p 16201:16201 -p 16301:16301 \--name hbase6 \harisekhon/hbase:1.3安装好,如下图所示:参数说明:-d 表示 后台运行-原创 2021-04-15 11:50:06 · 840 阅读 · 0 评论 -
spark连接Impala,查询返回Json
1、Impala介绍Impala是大数据实时查询分析引擎。直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,也就是说hive活着,impala才能存在,否则随着消失。2、Impala特点基于内存进行计算,能够对PB级数据进行交互式实时查询/分析;无需转换为MR,直接读取HDFS数据C++编写,LLVM统一编译运行兼容HiveSQL具有数据仓库的特性,可对hi原创 2021-03-10 10:17:40 · 1990 阅读 · 4 评论 -
数据集上传到HDFS
假设数据集demo.txt已经保存到linux本地文件系统.HDFS正常启动后,将数据集上传到HDFS文件系统中:1、查看HDFS文件系统根目录下的内容./bin/hdfs dfs -ls /2、在HDFS的根目录下创建input_spark目录./hdfs dfs -mkdir /input_spark3、查看目录是否创建成功./hdfs dfs -ls /4、把本地数据集上传到HDFS中./hdfs dfs -put demo.txt /input_spark数据上传完后原创 2020-10-13 21:42:53 · 2789 阅读 · 0 评论 -
解决mac下 ssh: connect to host localhost port 22: Connection refused
如果启动hadoop集群的时候报下面这个错误:20/10/13 12:28:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicableStarting namenodes on [localhost]localhost: ssh: connect to host localhost port 22:原创 2020-10-13 12:41:04 · 913 阅读 · 0 评论 -
Hadoop的伪分布式安装(存储采用HDFS)
安装hadoop的3种方式:1、单机模式:在一台机器运行,存储采用本地文件系统,没有分布式文件系统HDFS2、伪分布式模式:存储采用HDFS,HDFS的名称节点和数据节点在同一台机器上3、分布式模式:存储采用HDFS,HDFS的名称节点和数据节点在不同机器上安装的Hadoop版本是2.7.5.安装包的名称 是:hadoop-2.7.5.tar.gz1)解压tar -zxvf hadoop-2.7.5.tar.gz验证是否成功,查看hadoop的版本/hadoop/hadoop-2.7.5原创 2020-10-13 08:10:56 · 279 阅读 · 0 评论 -
KafKa介绍
1、KafKa定义Kafka是一种高吞吐量的分布式发布订阅系统,用户通过KafKa系统可以发布大量的消息,同时也能实时订阅消费消息2、KafKa可以同时满足在线实时处理和批量离线处理3、核心概念1)BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker。2)Partition属于物理概念,每个Topic包含一个或多个Partition。3)Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic4)Producer负责发布消息到Kafka b原创 2020-09-24 20:12:27 · 276 阅读 · 0 评论 -
DStream操作概述
1、Spark运行架构2、在spark中,一个应用由一个任务控制节点(Driver)和若干个作业(Job)组成,一个作业由多个阶段(stage)构成,一个阶段由多个任务组成(Task).3、当执行一个应用时,任务控制节点会向集群管理器(cluster Manager)申请资源,启动exector,并向Executor发送应用程序代码和文件,然后在exector上执行task.4.spark Streaming工作原理欲了解更多spark Streaming的内容,请扫描关注下方公众号:..原创 2020-09-18 09:49:58 · 371 阅读 · 0 评论 -
spark Streaming 流计算
1、流计算实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息.2、处理实时的数据,获取实时的结果,结果主动推送给用户hadoop适合批处理3、流计算框架:1)storm:Twitter公司研发的.免费开源的分布式实时计算系统.可简单,高效,可靠地处理大量的流数据.4、Spark Streaming可整合多种输入数据源,如kafka,Flume,HDFS,经处理后的数据可存入文件系统,数据库,或显示在仪表盘里.5、spark Streaming无法实现毫秒级的流计算而sto原创 2020-09-17 09:20:27 · 547 阅读 · 0 评论 -
Spark SQL
1、简介1、首先提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作2、其次可以支持大量的数据源和数据分析算法.Spark SQL可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力.2、DataFrame与RDD的区别...原创 2020-09-14 09:06:02 · 92 阅读 · 0 评论 -
Hive简介
1、Hive架构hive: sql on hadoop2、hive中sql查询的Mapreduce转换过程3、shark:hive on spark可以近似地认为将物理执行计划从MapReduce作业转化成了spark作业,通过hive的hiveQL解析,把HiveQL翻译成spark的RDD操作.后面逐渐被spark sql所替代...原创 2020-09-14 08:08:18 · 143 阅读 · 0 评论 -
spark 完成二次排序
先根据第一列的数字从大到小排序,如果相等,在按照第二列进行排序.文件内容:file3.txt23 423 52 42 56 76 810 2310 2343 4543 4546 5646 56排序代码:1、这个一个类:SecondarySortkey/** * @author * @date 2020-09-09 15:02 * @version 1.0 */class SecondarySortkey(val first:Int,val second原创 2020-09-09 20:15:42 · 270 阅读 · 0 评论 -
scala对文件进行排序
1、利用scala编写对文件进行排序:下面是要排序的两个文件的内容:file1:234333490100file2:10342323100编写排序的程序:import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfimport org.apache.spark.HashPartitioner/** * @au原创 2020-09-08 07:27:08 · 656 阅读 · 0 评论 -
Spark报错 A master URL must be set in your configuration
如果在写spark程序的时候报下面这种错误:20/09/08 07:16:06 ERROR SparkContext: Error initializing SparkContext.org.apache.spark.SparkException: A master URL must be set in your configurationat org.apache.spark.SparkContext.(SparkContext.scala:379)at MySort$.main(MySort.s原创 2020-09-08 07:18:34 · 644 阅读 · 0 评论 -
scala开发求最大值和最小值
1、注意scala与spark的版本匹配的问题下面这个匹配是没有问题的name := "top"version := "0.1"scalaVersion := "2.11.12"libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"scala的版本如果不是2.11.12,spark的版本不是2.1.0.否则很可能就会造成不对应的结果下面是用scala求最大最小值的程序import org.apache.s原创 2020-09-03 22:10:34 · 4105 阅读 · 0 评论 -
Scala调用Spark工具包出现错误: 找不到或无法加载主类
使用IDEA编辑器搭建spark框架的时候,可能会遇上“找不到或无法加载主类”的问题。搜索出现此类情况的错误,不难发现网上很多信息指出这是因为混合了java 和scala,造成了不编译。但是,如果有使用他们的解决方法,还是失效的小伙伴们,那么可以试试我的办法。注:Scala版本为2.11.12;Java版本为1.8;Spark版本为2.1.0;系统是MAC OS。首先检查Scala的配置“File -> Project Structure…”1)检查了"Platform Settings "项目原创 2020-09-01 22:02:20 · 4401 阅读 · 0 评论 -
slf4j与log4j的区别及slf4j的简单用法
slf4j的用法:1、Logger必须作为类的静态变量使用2、创建日志记录器方法:private static final Logger logger = LoggerFactory.getLogger(Slf4jTest.class.getName());// slf4j日志记录器3、日志级别:每个Logger都被了一个日志级别(log level),用来控制日志信息的输出。日志级别从高到低分为:A:off 最高等级,用于关闭所有日志记录。B:fatal 指出原创 2020-08-31 09:06:58 · 234 阅读 · 1 评论 -
使用Intellij Idea编写Spark应用程序(Scala+SBT)
今天这篇博客同样是使用Intellij Idea编写Spark应用程序,但是使用的是SBT工具。下面开始我们的教程。运行环境mac OS系统Spark 2.4.5Intellij Idea (Version 2019.1)构建基于SBT的Scala项目如下图,按顺序执行如下操作:新建项目选择Scala—>SBT设置项目名,点击Finish即可。这里需要设置Scala的版本必须2.11.*的版本号。因为Spark 2.0是基于Scala 2.11构建的。这个可以在Spark的官原创 2020-08-06 14:21:09 · 612 阅读 · 0 评论 -
spark版本与scala版本的选择
Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala 2.12. Spark 3.0+ is pre-built with Scala 2.12.spark的2.x版本除了2.4.2,和scala的2.11的版本相匹配,spark的3.0+和sacla的2.12的版本相匹配...原创 2020-08-05 19:53:20 · 2206 阅读 · 0 评论 -
解决SBT下载慢,dump project structure from sbt?
解决SBT下载慢,dump project structure from sbt?执行命令:vim ~/.sbt/repositories在配置文件里增加[repositories]localhuaweicloud-maven: https://repo.huaweicloud.com/repository/maven/maven-central: https://repo1.maven.org/maven2/sbt-plugin-repo: https://repo.scala-sbt.or原创 2020-08-03 16:39:22 · 621 阅读 · 0 评论 -
初识大数据(十三)-----Spark SQL函数进阶
1、新增列df.withColumn(“year”,year(col(“add_time”))).show2、新增自增序号列df.withColumn("id","monotonically_increasing_id()"+1).show3、修改列的数值df.withColumn(“op_phone”,“concat(lit("广东"),col(“op_phone”))”).show...原创 2020-06-11 20:33:29 · 359 阅读 · 0 评论 -
初识大数据(十二)-----Spark SQL基本操作
1、Parquet是什么?1)Parquet是列式存储格式,是大数据时代文件存储格式的首选标准.2)Parquet是Spark默认的存储格式2、Spark SQL操作Parquet1)加载数据sparkSession.read.parquet("/nginx/42325.parquet")2)写入数据df.write.mode(Savemode.Overwrite).parquet(“/path/to”)3、查询和过滤1)show()2、collect()获取所有数据到数组,返回原创 2020-05-28 19:09:12 · 248 阅读 · 0 评论 -
初识大数据(十一)-----Spark SQL简介
1. SparkSQL是什么?SparkSQL是分布式SQL引擎,底层依赖RDD,处理结构化数据的一个模块2、SparkSQL的入口SparkSessionval spark = SparkSession.builder().enableHiveSupport().getOrCreate3. spark sql与hive的不同1、Hive 是基于MapReduce框架实现SQL基本操作2、Spark SQL拥有Catalyst优化器3、Spark SQL能够支持不同数据源4、Spark原创 2020-05-28 10:20:45 · 154 阅读 · 0 评论 -
初识大数据(十)-----RDDs特性
1、RDDs的血统关系图Sprak维护着RDDs之间的依赖关系和创建关系,叫做血统关系图.Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据.2、延迟计算Spark对RDDs的计算是他们第一次使用action操作的时候.这种数据在处理大数据的时候特别有用,可以减少数据的传输.Spark内部记录metadata表名transformations操作已经被响应了.加载数据也是延迟计算,数据只有在必要的时候,才会被加载进去.3、RDD.persist()默认每次在RDDs上面进行a原创 2020-05-17 21:56:43 · 370 阅读 · 0 评论 -
初识大数据(九)-----RDDs基本操作
1、Transfromation介绍TransFormation(转换)从之前的RDD构建一个新的RDD,像Map()和filter().2、map()map()接收函数,把函数应用到RDD的每一个元素,返回新RDD.3、filter()filter()接收函数,返回只包含满足filter()函数的元素的新RDD.4、flatMap()对每个输入元素,输出多个输出元素.flat压扁的意思,将RDD元素压扁后,返回一个新的RDD...原创 2020-05-13 22:11:13 · 270 阅读 · 0 评论 -
初识大数据(八)-----RDDs介绍
一、Driver Program1、包含程序的main方法,RDDs的定义和操作2、它管理很多节点,我们称作executors二、Spark ContextDriver Program通过Spark Context对象访问SparkSparkContext对象代表和一个集群的链接在Shell中sparkContext自动创建好了,就是sc三、RDDsResilient distributed datasets(弹性分布式数据集,简写RDDs)这些RDDs,并行的分布在整个集群中R原创 2020-05-12 22:21:36 · 295 阅读 · 1 评论 -
初识大数据(七)-----用Scala进行spark开发
1、开发第一个Spark程序1)创建一个Spark Context2)加载数据3)把每一行分割成单词4)转换成pairs并且计数2、wordCount程序import org.apache.spark.{SparkConf, SparkContext}/** * @author * @date 2020-05-11 20:19 * @version 1.0 */def main(args: Array[String]) { val conf = new SparkCo原创 2020-05-11 22:45:53 · 411 阅读 · 0 评论 -
初识大数据(六)-----spark简介
1、Spark是什么?Spark是一个快速且通用的集群计算平台1)快速Spark扩充了流行的MapReduce的计算模型Spark是基于内存计算的2)通用批处理,迭代式计算,交互查询和流处理等3)高度开放提供了Python,Java,Scala,SQL的API和丰富的内置库2、Spark的组件Spark包括多个紧密集成的组件1)Spark core包含Spark 的基本功能,包含任务调度,内存管理,容错机制等内部定义了RDDS(弹性分布式数据集)提供了很多APIs来创建和操作原创 2020-05-11 14:32:53 · 171 阅读 · 0 评论 -
初识大数据(五)-----用IntelliJ IDEA进行Hadoop的开发
1、在本地配置hadoop的环境变量增加系统变量HADOOP_HOME,变量值为hadoop-2.6.0.rar压缩包解压所在的目录在系统变量中对变量名为PATH的系统变量追加变量值,变量值为 %HADOOP_HOME%/bin2、新建一个maven工程打开IDEA,依次点击“File”→“New”→“Project”,点击左侧Maven,勾选上方“Create from archetype”,在下方列表中选择org.apache.maven.archetypes:maven-archetype-原创 2020-05-09 15:48:20 · 1052 阅读 · 0 评论 -
初识大数据(四)-----Hadoop的命令行操作
讲了那么多hadoop的原理,来这次我们实操过个瘾.原创 2020-05-08 11:29:11 · 238 阅读 · 0 评论 -
初识大数据(三)-----基于zookeeper的Hadoop集群的安装与配置
基于zookeeper的Hadoop集群集群规划hadoop1(master)hadoop2hadoop3NameNode√√DataNode√√√ResourceManager√√zookeeper√√√准备工作1、确保服务器安装了JDKHadoop需要java环境支持输入该命令 java -version确...原创 2020-05-07 17:23:40 · 294 阅读 · 0 评论 -
初识大数据(二)-----hadoop的核心原理
一、HDFS设计架构1)块(Block)固定大小的逻辑单元,HDFS的文件被分成块进行存储,HDFS块的默认大小是64M.块是文件存储处理的逻辑单元.2)NameNode是管理节点,存放文件的元数据文件与数据块的映射表数据块与数据节点的映射表3)DataNode是HDFS的工作节点,存放数据块二、数据管理策略1、每个数据库块3个副本,分布在两个机架内的3个节点.2、Dat...原创 2020-05-07 15:45:45 · 129 阅读 · 0 评论 -
初识大数据(一)-----Hadoop基本概念
1、Hadoop是什么?Hadoop是一个开源的分布式存储和分布式计算平台包括两个核心组成:1)HDFS: 分布式文件系统,存储海量的数据2)MapReduce: 并行处理框架,实现任务分解和调度2、hadoop用来做什么?1)搭建大型数据仓库,PB级的存储,处理,分析,统计等业务主要用于搜索引擎,日志分析,商业智能,数据挖掘3、hadoop的优势:1)高扩展2)低成本3...原创 2020-05-06 21:12:12 · 191 阅读 · 0 评论