自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浪灬迹-红尘少年的博客

努力不一定成功,但是不努力,一定很舒服!!

  • 博客(56)
  • 收藏
  • 关注

原创 Spark运行机制及提交过程

Spark运行机制:依赖:宽依赖和窄依赖,RDD具有分区 宽依赖:多个子RDD的分区依赖同一个父RDD的分区,类似reduceByKey;在父RDD的角度,理解为超生; 窄依赖:父RDD的每个分区最多被一个子RDD使用,类似map();在父RDD的角度,理解为独生; 依赖和分区 分区:RDD分区指分布式计算 依赖...

2020-04-02 10:36:27 172

原创 Spark缓存级别

惰性求值-------------------------------- 1.定义: 在RDD行动操作之前,不触发计算。转换操作和创建操作、控制操作均为惰性的; 只有行动操作可触发Job。缓存cache----------------------------------- 1.spark的缓存级别参照【org.apache.spark.s...

2020-03-31 13:07:03 327 1

原创 Spark行动操作Action

1.定义:触发Job,调用runJob()方法: 比如:collect、count 2.foreach 说明:将结果返回值执行器节点,而非驱动器(collect), 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U,...

2020-03-31 13:00:17 266

原创 Spark常用算子

Spark常见算子及说明map:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap:同Map算子一样,最后将所有元素放到同一集合中; distinct:将RDD中重复元素做去重处理,针对Array[String]类型,将String对象视为字符串数组; coalesce:将RDD的分区数...

2020-03-31 12:32:23 203

原创 Spark集群模式相关概念

SparkContext:Spark上下文:作用:连接Spark集群,用户创建RDD、累加器和广播。RDD:Resilient Distributed Dataset,弹性式分布式数据集:RDD代表一个不可变的,可并行操作的元素分区集合。RDD4种类型:a.创建RDD:3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转化RDD、makeRDD将...

2020-03-09 16:01:42 144

原创 Spark和Hadoop容易混淆的概念

集群架构方面:Standalone模式:集群遵循主从架构,主(Master进程)从(Worker进程)On Yarn模式:集群遵循主从架构,主(ResourceManager进程)从(NodeManager)以上两种模式的主从进程都会在集群开启...

2020-03-07 15:06:39 119

原创 Spark独立应用的创建

下载IntalliJIDEA 创建Scala工程(略) 新建工程-创建Maven工程; 导入scala包 加载spark-core_2.11依赖库 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</art...

2020-03-06 18:54:09 265

原创 Spark集群部署

Spark集群部署一共分为三种情况:stantalone模式,spark on Yarn模式,Meso模式,这里只说前两种模式搭建;Spark的Standalone模式部署:1)复制spark的conf目录下三个文件并且重新命名;$>cp spark-env.sh.template spark-env.sh 添加以下内容,注意:“=”附近无空格:...

2020-03-06 09:40:33 271

原创 Spark单机部署

spark版本选型:spark2.1.2。依赖scala2.11.8;说明:在这里可以根据自己的需要去官网下载spark版本,spark版本下面会有scala版本依赖说 明;根据需要下载。spark解压安装:上传spark安装包$cd /home/spark/soft (spark安装包存在路径)$>tar -zxvf spark-2.1.2-bin-hadoop2....

2020-03-05 18:21:35 830

原创 Spark介绍

Spark定义:是一个进行大规模数据处理的统一分析引擎;理解:Spark是数据分析用的,对大规模数据有更好的处理;Spark的速度优势:在迭代循环的计算模型下,spark比Hadoop快100倍;Spark速度优势原因:采用的DAG(有向无环图)调度+查询优化器+物理优化引擎;Spark易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等;其他...

2020-02-23 09:40:17 196

转载 Linux 环境变量中 PATH=$PATH:$HOME/bin是什么意思,冒号“ : ”是什么意思

1,$HOME这个代码是一个环境变量,它代表的是当前登录的用户的主文件夹的意思。(就是家目录的那个)2,$HOME/bin这个代码指的就是主文件夹下的bin子目录,代表的是文件夹的内部子目录。(注意不是根目录的那个)3,PATH=PATH:PATH:HOME/bin这个代码是设置PATH环境变量,就是设置环境变量用等号,首先:冒号是分割符。记得Windows上面也有PATH环境变量,Win...

2019-10-24 09:24:03 8747

原创 AIX系统下sed的用法与实例——查询/打印/替换字符串并生成文件/删除

sed是AIX中非常重要的文本流编辑器,它对输入的文本进行查询/打印/替换/删除等操作,并将结果写到标准输出。sed命令包含很多功能,用于选择要修改的行,并只对选择的行作更改。首先,使用sed命令请记住:sed命令以行为单位对文本进行处理,处理完当前行,接着下一行文本输入进行处理,依次循环。其次,使用sed命令请记住:sed命令不会对原文件进行操作,它是对原文件的拷贝文件进行操作。打印指定行...

2019-08-12 10:13:13 5015

转载 Linux中的创建LVM-PV-VG-LV

Linux中的创建PV-VG-LV操作系统为Linux5.5LVM是逻辑盘卷管理(LogicalVolumeManager)的简称,他是磁盘管理的另一种工具,就目前基本上所有操作系统均支持,LVM是建立在硬盘和分区之上的一个逻辑层,来提高磁盘分区管理的灵活性。通过LVM系统管理员可以轻松管理磁盘分区,如:将若干个磁盘分区连接为一个整块的卷组(volumegroup),形成一个...

2019-06-24 14:36:27 2948

转载 网络协议

1 TCP/IP网络模型TCP/IP网络模型分为4层,自下而上分布为链路层(又叫网络接口层)、网络层、传输层、应用层。链路层:处理数据在媒介上的表示、传输以及与硬件交互的细节。网络层:IP层负责IP数据报的路由转发,所有的TCP、UDP...

2019-06-11 14:45:13 195

原创 Hadoop的InputFormat抽象类源码解析

InputFormat抽象类源码解析-------------------------- 0.做两件事:【进行逻辑切分InputSplit;创建RecordReader】 1.抽象方法:List<InputSplit> getSplits(JobContext context) 说明:逻辑地分割作业的输入文件集-->InputSplit。然后将每个...

2019-05-28 16:24:27 225

原创 Hadoop的Mapper类源码解析

1.来自[org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>] 2.java Doc说明: Map将输入数据<k,v>转换成中间数据集<k,v> map将为输入的数据的每一个记录(行)执行map函数,MR通过inputfomart生成input...

2019-05-28 16:03:07 227

原创 Hadoop的eclipse提交集群运行

1.集群提交修改项 a.确保JobAPP提交至集群 解决方案:修改mapred-site.xml mapreduce.framework.name = yarn b.报重新连接:0.0.0.0/0.0.0.0:8032 解决方案: 修改yarn-site.xml文件 ...

2019-05-28 15:55:07 144

原创 oracle用户名密码到期后如何处理

原因:确定是由于Oracle11g中默认在default概要文件中设置了“PASSWORD_LIFE_TIME=180天”所导致。影响:1、密码过期后,业务进程连接数据库异常,影响业务使用。2、问题发生频率数据库密码过期后,业务进程一旦重启会提示连接失败。解决方案:按照如下步骤进行操作:1、查看用户的proifle是哪个,一般是default:sql>SELE...

2019-05-27 11:29:35 484

原创 通过FileSystem API对集群操作(第二回)

通过java.net.URL类访问写入HDFS数据---------------------------------------------------------------- /** * 通过java.net.URL类访问写入HDFS数据 * 结论:通过URL的方式不能实现对HDFS的写操作,抛java.net.UnknownServiceException: p...

2019-05-24 16:42:24 185

原创 通过FileSystem API对集群操作(第一回)

通过FileSystem API访问BlockLocations块位置信息----------------------------------------------------------------------------------------------- /** * 通过FileSystem API访问BlockLocations块位置信息 * @throw...

2019-05-24 16:41:06 240

原创 Hadoop之词频统计

MR编程思路-------------------------------- 0.词频统计:n个文件,每个文件有m行数据,每行数据由空格分割 如text1.txt hello world how are you? ni hao hello tom 如text2.txt zhang ...

2019-05-24 16:31:12 1559

原创 hdfs搭建IDE

hdfs API-------------------- 1.HDFS:hadoop分布式文件系统--> 两种表现形式:1.hadoop fs shell命令:【hadoop fs -commond】 2.java API方式访问: 【DistributedFileSystem】对应的HDFS 2.搭建IDE ...

2019-05-24 16:26:32 113

原创 hdfs管理员操作dfsadmin

hdfs管理员操作dfsadmin------------------------------- 1.-report:返回集群的状态信息 $>hdfs dfsadmin -report 2.-metasave:默认存放到{HADOOP_LOG_DIR}路径下,包含datanode和块的信息 $>hdfs dfsadmin -metasave...

2019-05-24 16:16:46 1282

原创 NameNode剖析

分析namenode开启过程---------------------------- 1.默认目录下{hadoop.tmp.dir/dfs/name/current},fsimage文件存储为两个,加载fsimage_txid最后一个。(txid=39) 2.加载edits_txid操作文件至内存中。元数据已全部加载至内存上。(txid=40-41) 3.保存checkp...

2019-05-24 16:08:44 124

原创 Hadoop元数据剖析

元数据------------------------- 1.查看fsimage文件 $>hdfs oiv -i fsimage_0000000000000000022 -o ~/fs22.xml -p XML 【 <?xml version="1.0"?> <fsimage> &...

2019-05-24 16:07:09 178

原创 HDFS相关概念及体系结构

1.hdfs设计原理 负载均衡、考虑分布式计算 -->block机制 2.block默认大小为128m【hadoop2.0版本以上】 原因:默认传输效率100M/s 寻址时间占传输时间的1% 寻址时间为10ms block默认设置参数: <property> <name>dfs.blo...

2019-05-23 16:02:36 271

原创 hdfs默认数据存放路径

1.{hadoop.tmp.dir}:/tmp/hadoop-${user.name} ,在core-site.xml 修改路径到当前用户目录下: 【/home/hyxy/tmp/hadoop】 <property> <name>hadoop.tmp.dir</name>...

2019-05-23 15:58:02 5116 1

原创 Hadoop完全分布式搭建

1.克隆两个节点 2.修改静态IP 3.修改主机名:【master(主),slave1(从),slave2(从)】 4.修改IP和主机名的映射:【/etc/hosts】 5.SSH无密登录: 6.安装JDK(略) 7.安装hadoop(略) 8.配置环境变量(略) 9.修改hadoop配置文件 a.core-sit...

2019-05-23 15:52:10 236

原创 克隆虚拟机最最标准版

1.关闭虚拟机-->选项【虚拟机】-->【管理】-->【克隆】 2.【下一步】-->【下一步】-->【选项:创建完整克隆】 3.指向本地虚拟机目录{D:\VMware-system\Centos-6.8-64-02} 4.制定虚拟机名称为:Centos-6.8-64-02 5.修改克隆后的虚拟机静态IP a.查找eth1...

2019-05-23 15:43:04 124

原创 linux静态IP设置

1.VMware-->编辑-->虚拟网络编辑器-->还原默认配置-->重置网络设置 2.VMware-->编辑-->虚拟网络编辑器-->选中VM8-->关掉DHCP 3.查看网络相关配置: 子网:192.168.14.0 192.168.3.0 子网掩码:255.255.255.0 ...

2019-05-23 15:40:24 145

原创 品茗孤独

不知何时已习惯一个人的孤独,静静的,不喜欢喧嚣,想一个人就这样安静的生活;曾好喜欢一个人,喜欢她的笑容,像一个孩子,笑的有一丝狡黠;喜欢她向孩子一样抱着我胳膊,我们一起去酒吧,一起去kvt疯狂的玩耍;她不喜欢静,喜欢玩闹,我曾想,就这样陪着她也好,陪她一辈子,我来为她遮风挡雨;可是,还是散了,像一缕清风,心里有一丝昨日如梦的恍惚;我们一起送别一位姐姐的时候,我曾对她说:愿你历尽千帆,归来未曾改变;...

2019-03-30 12:44:40 173

原创 搭建Hadoop2.7.3伪分布式

hadoop伪分布搭建流程准备工作:1、jdk-8u162-linux-x64.tar2、hadoop.2.7.3.tar.gz1、上传压缩包到指定目录下本人是CentOS-6.8-x86_64;搭建Hadoop建议创建一个新的用户;本人把hadoop搭建在hyxy用户下;压缩包上传到hyxy的新建目录soft下,此次操作都在hyxy用户下进行;2、解压相关软件...

2019-03-22 17:01:47 192

原创 scala概念随笔

1、面向函数式编成:函数即参数2、scala跑在java平台,scala程序编译成.class文件,由jvm解析处理,所以需要java来处理,3、scala是面向对象,面向函数的基于静态类型(常量)的编程语言。4、常量为主,有隐士转换5、线程的处理,采用消息通信机制;6、消息机制:kafka,上层架构就是软件架构,消息之间的传递,一般都是点对点的;而基于sorkeyde的机制,...

2019-03-13 20:30:33 107

原创 shell中执行一个字符串

正常情况下:b="ps -ef | grep a.sh | grep -v grep | wc -l"$b这样根本就行不通,会报错ERROR:正解:b="ps -ef | grep a.sh | grep -v grep | wc -l"a=`echo $b | sh`echo $a0这个才会返回我们需要的值,当然这个只是个例子,需要变通;一个字符串要想执行...

2019-03-12 09:21:17 3339

原创 Linux下安装Oracle报错:Error in invoking target 'mkldflags ntcontab.o&nb

linux小红帽下安装oracle是十分痛苦的,因为默认是没有gcc和gcc-c++环境的,这个需要自己安装,当然这个前提是在上步你的包没有缺失,当遇到Error in invoking target 'mkldflags ntcontab.o&amp;nb  这个问题时;直接安装gcc和gcc-c++环境:首先你得先把镜像上传安装:这个根据自己的版本 将镜像挂载到/mnt目录下: # c...

2019-02-27 11:02:29 2890

原创 WIN系统向Linux系统上传文件失败

检查两个系统的防火墙,关闭防火墙。 权限问题 状态:    开始上传 D:\数据库安装所需rpm包\pdksh-5.2.14-37.el5.i386.rpm 状态:    读取“/mnt/cd/Packages”的目录列表... 状态:    Listing directory /mnt/cd/Packages 命令:    put "D:\英雄时刻\数据库安装所需rpm包\pdksh-...

2019-02-26 21:42:10 6132

转载 Oracle各个版本的区别

针对不同的开发和部署环境,Oracle公司将同一系列Oracle数据库分成四个版本:标准版 One (Standard Edition One)、标准版(Standard Edition)、企业版(Enterprise Edition)和个人版(Personal Edition )。 1.   标准版One  标准版One是提供给小规模用户使用的Oracle版本,它提供小型数据库服务器...

2019-02-26 09:39:56 6241

转载 tar:time stamp in the future

如果解压一个拷贝自一个系统时间在当前系统之后的 包,会提示如题目这样。在解压某一压缩包时出现截图中错误,经了解主要是因为创建这个压缩包的时间大于当前系统时间(因为复制的文件保留了文件本身的创建时间,解压后的文件夹同样也保存了创建时间)。所以当前系统给出提示,此提示暂时未发现会有何影响。tar: openssl-1.0.1e/apps/openssl.cnf: time stamp 2013-...

2019-01-17 11:14:35 358

转载 IOError: [Errno 22] invalid mode ('r') or filename;错误的处理方法

用python的时候,出现过的一些小错误,或者想出的一些小方法。1.file.close()方法的使用与否。如果文件打开方式是'w',且最后没有写file.close()的话,文件会是空的。这样会由于程序员的疏忽造成不好的后果。从python2.5开始,你可以避免显式地使用file.close()函数,如果采用with语句的话。如下所示:&gt;&gt;&gt; from __future_...

2019-01-16 09:49:56 2466

转载 spool用法

关于SPOOL(SPOOL是SQLPLUS的命令,不是SQL语法里面的东西。)对于SPOOL数据的SQL,最好要自己定义格式,以方便程序直接导入,SQL语句如:select taskindex||'|'||commonindex||'|'||tasktype||'|'||to_number(to_char(sysdate,'YYYYMMDD')) from ssrv_sendsms_task...

2019-01-15 13:59:12 900

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除