浪灬迹-红尘少年-CSDN博客

原创 Spark运行机制及提交过程

Spark运行机制：依赖：宽依赖和窄依赖，RDD具有分区宽依赖：多个子RDD的分区依赖同一个父RDD的分区，类似reduceByKey；在父RDD的角度，理解为超生；窄依赖：父RDD的每个分区最多被一个子RDD使用，类似map()；在父RDD的角度，理解为独生；依赖和分区分区:RDD分区指分布式计算依赖...

2020-04-02 10:36:27 180

原创 Spark缓存级别

惰性求值-------------------------------- 1.定义：在RDD行动操作之前，不触发计算。转换操作和创建操作、控制操作均为惰性的；只有行动操作可触发Job。缓存cache----------------------------------- 1.spark的缓存级别参照【org.apache.spark.s...

2020-03-31 13:07:03 357 1

原创 Spark行动操作Action

1.定义：触发Job，调用runJob()方法：比如：collect、count 2.foreach 说明：将结果返回值执行器节点，而非驱动器（collect）， 3.aggregate def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U,...

2020-03-31 13:00:17 277

原创 Spark常用算子

Spark常见算子及说明map：将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 flatMap：同Map算子一样，最后将所有元素放到同一集合中； distinct：将RDD中重复元素做去重处理，针对Array[String]类型，将String对象视为字符串数组； coalesce：将RDD的分区数...

2020-03-31 12:32:23 220

原创 Spark集群模式相关概念

SparkContext:Spark上下文：作用：连接Spark集群，用户创建RDD、累加器和广播。RDD：Resilient Distributed Dataset，弹性式分布式数据集：RDD代表一个不可变的,可并行操作的元素分区集合。RDD4种类型：a.创建RDD：3类(parallelize:将Seq序列数据转化为RDD、textFile将外部文件转化RDD、makeRDD将...

2020-03-09 16:01:42 147

原创 Spark和Hadoop容易混淆的概念

集群架构方面：Standalone模式：集群遵循主从架构，主（Master进程）从（Worker进程）On Yarn模式：集群遵循主从架构，主（ResourceManager进程）从（NodeManager）以上两种模式的主从进程都会在集群开启...

2020-03-07 15:06:39 127

原创 Spark独立应用的创建

下载IntalliJIDEA 创建Scala工程（略）新建工程-创建Maven工程；导入scala包加载spark-core_2.11依赖库 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</art...

2020-03-06 18:54:09 279

原创 Spark集群部署

Spark集群部署一共分为三种情况：stantalone模式，spark on Yarn模式，Meso模式，这里只说前两种模式搭建；Spark的Standalone模式部署：1）复制spark的conf目录下三个文件并且重新命名；$>cp spark-env.sh.template spark-env.sh 添加以下内容，注意：“=”附近无空格：...

2020-03-06 09:40:33 278

原创 Spark单机部署

spark版本选型：spark2.1.2。依赖scala2.11.8；说明：在这里可以根据自己的需要去官网下载spark版本，spark版本下面会有scala版本依赖说明；根据需要下载。spark解压安装：上传spark安装包$cd /home/spark/soft （spark安装包存在路径）$>tar -zxvf spark-2.1.2-bin-hadoop2....

2020-03-05 18:21:35 847

原创 Spark介绍

Spark定义：是一个进行大规模数据处理的统一分析引擎；理解：Spark是数据分析用的，对大规模数据有更好的处理；Spark的速度优势：在迭代循环的计算模型下，spark比Hadoop快100倍；Spark速度优势原因：采用的DAG(有向无环图)调度+查询优化器+物理优化引擎；Spark易用性：spark提供多种语言的API，如Java、Python、Scala、R、SQL等；其他...

2020-02-23 09:40:17 207

转载 Linux 环境变量中 PATH=$PATH:$HOME/bin是什么意思，冒号“ : ”是什么意思

1，$HOME这个代码是一个环境变量，它代表的是当前登录的用户的主文件夹的意思。（就是家目录的那个）2，$HOME/bin这个代码指的就是主文件夹下的bin子目录，代表的是文件夹的内部子目录。（注意不是根目录的那个）3，PATH=PATH:PATH:HOME/bin这个代码是设置PATH环境变量，就是设置环境变量用等号，首先:冒号是分割符。记得Windows上面也有PATH环境变量，Win...

2019-10-24 09:24:03 8848

原创 AIX系统下sed的用法与实例——查询/打印/替换字符串并生成文件/删除

sed是AIX中非常重要的文本流编辑器，它对输入的文本进行查询/打印/替换/删除等操作，并将结果写到标准输出。sed命令包含很多功能，用于选择要修改的行，并只对选择的行作更改。首先，使用sed命令请记住：sed命令以行为单位对文本进行处理，处理完当前行，接着下一行文本输入进行处理，依次循环。其次，使用sed命令请记住：sed命令不会对原文件进行操作，它是对原文件的拷贝文件进行操作。打印指定行...

2019-08-12 10:13:13 5121

转载 Linux中的创建LVM-PV-VG-LV

Linux中的创建PV-VG-LV操作系统为Linux5.5LVM是逻辑盘卷管理（LogicalVolumeManager）的简称，他是磁盘管理的另一种工具，就目前基本上所有操作系统均支持，LVM是建立在硬盘和分区之上的一个逻辑层，来提高磁盘分区管理的灵活性。通过LVM系统管理员可以轻松管理磁盘分区，如：将若干个磁盘分区连接为一个整块的卷组（volumegroup），形成一个...

2019-06-24 14:36:27 2998

转载网络协议

1 TCP/IP网络模型TCP/IP网络模型分为4层，自下而上分布为链路层（又叫网络接口层）、网络层、传输层、应用层。链路层：处理数据在媒介上的表示、传输以及与硬件交互的细节。网络层：IP层负责IP数据报的路由转发，所有的TCP、UDP...

2019-06-11 14:45:13 206

原创 Hadoop的InputFormat抽象类源码解析

InputFormat抽象类源码解析-------------------------- 0.做两件事：【进行逻辑切分InputSplit；创建RecordReader】 1.抽象方法：List<InputSplit> getSplits(JobContext context) 说明：逻辑地分割作业的输入文件集-->InputSplit。然后将每个...

2019-05-28 16:24:27 236

原创 Hadoop的Mapper类源码解析

1.来自[org.apache.hadoop.mapreduce.Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>] 2.java Doc说明： Map将输入数据<k,v>转换成中间数据集<k,v> map将为输入的数据的每一个记录(行)执行map函数，MR通过inputfomart生成input...

2019-05-28 16:03:07 237

原创 Hadoop的eclipse提交集群运行

1.集群提交修改项 a.确保JobAPP提交至集群解决方案：修改mapred-site.xml mapreduce.framework.name = yarn b.报重新连接：0.0.0.0/0.0.0.0:8032 解决方案：修改yarn-site.xml文件 ...

2019-05-28 15:55:07 156

原创 oracle用户名密码到期后如何处理

原因：确定是由于Oracle11g中默认在default概要文件中设置了“PASSWORD_LIFE_TIME=180天”所导致。影响：1、密码过期后，业务进程连接数据库异常，影响业务使用。2、问题发生频率数据库密码过期后，业务进程一旦重启会提示连接失败。解决方案：按照如下步骤进行操作：1、查看用户的proifle是哪个，一般是default：sql>SELE...

2019-05-27 11:29:35 503

原创通过FileSystem API对集群操作（第二回）

通过java.net.URL类访问写入HDFS数据---------------------------------------------------------------- /** * 通过java.net.URL类访问写入HDFS数据 * 结论：通过URL的方式不能实现对HDFS的写操作，抛java.net.UnknownServiceException: p...

2019-05-24 16:42:24 199

原创通过FileSystem API对集群操作（第一回）

通过FileSystem API访问BlockLocations块位置信息----------------------------------------------------------------------------------------------- /** * 通过FileSystem API访问BlockLocations块位置信息 * @throw...

2019-05-24 16:41:06 253

原创 Hadoop之词频统计

MR编程思路-------------------------------- 0.词频统计：n个文件，每个文件有m行数据，每行数据由空格分割如text1.txt hello world how are you? ni hao hello tom 如text2.txt zhang ...

2019-05-24 16:31:12 1599

原创 hdfs搭建IDE

hdfs API-------------------- 1.HDFS:hadoop分布式文件系统--> 两种表现形式：1.hadoop fs shell命令：【hadoop fs -commond】 2.java API方式访问: 【DistributedFileSystem】对应的HDFS 2.搭建IDE ...

2019-05-24 16:26:32 124

原创 hdfs管理员操作dfsadmin

hdfs管理员操作dfsadmin------------------------------- 1.-report：返回集群的状态信息 $>hdfs dfsadmin -report 2.-metasave：默认存放到{HADOOP_LOG_DIR}路径下,包含datanode和块的信息 $>hdfs dfsadmin -metasave...

2019-05-24 16:16:46 1304

原创 NameNode剖析

分析namenode开启过程---------------------------- 1.默认目录下{hadoop.tmp.dir/dfs/name/current}，fsimage文件存储为两个，加载fsimage_txid最后一个。（txid=39） 2.加载edits_txid操作文件至内存中。元数据已全部加载至内存上。(txid=40-41) 3.保存checkp...

2019-05-24 16:08:44 131

原创 Hadoop元数据剖析

元数据------------------------- 1.查看fsimage文件 $>hdfs oiv -i fsimage_0000000000000000022 -o ~/fs22.xml -p XML 【 <?xml version="1.0"?> <fsimage> &...

2019-05-24 16:07:09 184

原创 HDFS相关概念及体系结构

1.hdfs设计原理负载均衡、考虑分布式计算 -->block机制 2.block默认大小为128m【hadoop2.0版本以上】原因：默认传输效率100M/s 寻址时间占传输时间的1% 寻址时间为10ms block默认设置参数： <property> <name>dfs.blo...

2019-05-23 16:02:36 279

原创 hdfs默认数据存放路径

1.{hadoop.tmp.dir}:/tmp/hadoop-${user.name} ,在core-site.xml 修改路径到当前用户目录下：【/home/hyxy/tmp/hadoop】 <property> <name>hadoop.tmp.dir</name>...

2019-05-23 15:58:02 5162 1

原创 Hadoop完全分布式搭建

1.克隆两个节点 2.修改静态IP 3.修改主机名：【master(主)，slave1(从)，slave2(从)】 4.修改IP和主机名的映射：【/etc/hosts】 5.SSH无密登录： 6.安装JDK(略) 7.安装hadoop(略) 8.配置环境变量(略) 9.修改hadoop配置文件 a.core-sit...

2019-05-23 15:52:10 246

原创克隆虚拟机最最标准版

1.关闭虚拟机-->选项【虚拟机】-->【管理】-->【克隆】 2.【下一步】-->【下一步】-->【选项：创建完整克隆】 3.指向本地虚拟机目录{D:\VMware-system\Centos-6.8-64-02} 4.制定虚拟机名称为：Centos-6.8-64-02 5.修改克隆后的虚拟机静态IP a.查找eth1...

2019-05-23 15:43:04 134

原创 linux静态IP设置

1.VMware-->编辑-->虚拟网络编辑器-->还原默认配置-->重置网络设置 2.VMware-->编辑-->虚拟网络编辑器-->选中VM8-->关掉DHCP 3.查看网络相关配置：子网：192.168.14.0 192.168.3.0 子网掩码：255.255.255.0 ...

2019-05-23 15:40:24 152

原创品茗孤独

不知何时已习惯一个人的孤独，静静的，不喜欢喧嚣，想一个人就这样安静的生活；曾好喜欢一个人，喜欢她的笑容，像一个孩子，笑的有一丝狡黠；喜欢她向孩子一样抱着我胳膊，我们一起去酒吧，一起去kvt疯狂的玩耍；她不喜欢静，喜欢玩闹，我曾想，就这样陪着她也好，陪她一辈子，我来为她遮风挡雨；可是，还是散了，像一缕清风，心里有一丝昨日如梦的恍惚；我们一起送别一位姐姐的时候，我曾对她说：愿你历尽千帆，归来未曾改变；...

2019-03-30 12:44:40 192

原创搭建Hadoop2.7.3伪分布式

hadoop伪分布搭建流程准备工作:1、jdk-8u162-linux-x64.tar2、hadoop.2.7.3.tar.gz1、上传压缩包到指定目录下本人是CentOS-6.8-x86_64;搭建Hadoop建议创建一个新的用户；本人把hadoop搭建在hyxy用户下；压缩包上传到hyxy的新建目录soft下，此次操作都在hyxy用户下进行；2、解压相关软件...

2019-03-22 17:01:47 197

原创 scala概念随笔

1、面向函数式编成：函数即参数2、scala跑在java平台，scala程序编译成.class文件，由jvm解析处理，所以需要java来处理，3、scala是面向对象，面向函数的基于静态类型（常量）的编程语言。4、常量为主，有隐士转换5、线程的处理，采用消息通信机制；6、消息机制：kafka，上层架构就是软件架构，消息之间的传递，一般都是点对点的；而基于sorkeyde的机制，...

2019-03-13 20:30:33 116

原创 shell中执行一个字符串

2019-03-12 09:21:17 3352

原创 Linux下安装Oracle报错：Error in invoking target 'mkldflags ntcontab.o&nb

linux小红帽下安装oracle是十分痛苦的，因为默认是没有gcc和gcc-c++环境的，这个需要自己安装，当然这个前提是在上步你的包没有缺失，当遇到Error in invoking target 'mkldflags ntcontab.o&nb 这个问题时；直接安装gcc和gcc-c++环境：首先你得先把镜像上传安装：这个根据自己的版本将镜像挂载到/mnt目录下： # c...

2019-02-27 11:02:29 2959

原创 WIN系统向Linux系统上传文件失败

检查两个系统的防火墙，关闭防火墙。权限问题状态: 开始上传 D:\数据库安装所需rpm包\pdksh-5.2.14-37.el5.i386.rpm 状态: 读取“/mnt/cd/Packages”的目录列表... 状态: Listing directory /mnt/cd/Packages 命令: put "D:\英雄时刻\数据库安装所需rpm包\pdksh-...

2019-02-26 21:42:10 6225

转载 Oracle各个版本的区别

针对不同的开发和部署环境，Oracle公司将同一系列Oracle数据库分成四个版本：标准版 One (Standard Edition One)、标准版（Standard Edition)、企业版（Enterprise Edition)和个人版（Personal Edition )。 1. 标准版One　　标准版One是提供给小规模用户使用的Oracle版本，它提供小型数据库服务器...

2019-02-26 09:39:56 6324

转载 tar:time stamp in the future

如果解压一个拷贝自一个系统时间在当前系统之后的包，会提示如题目这样。在解压某一压缩包时出现截图中错误，经了解主要是因为创建这个压缩包的时间大于当前系统时间（因为复制的文件保留了文件本身的创建时间，解压后的文件夹同样也保存了创建时间）。所以当前系统给出提示，此提示暂时未发现会有何影响。tar: openssl-1.0.1e/apps/openssl.cnf: time stamp 2013-...

2019-01-17 11:14:35 381

转载 IOError: [Errno 22] invalid mode ('r') or filename；错误的处理方法

用python的时候，出现过的一些小错误，或者想出的一些小方法。1.file.close()方法的使用与否。如果文件打开方式是'w'，且最后没有写file.close()的话，文件会是空的。这样会由于程序员的疏忽造成不好的后果。从python2.5开始，你可以避免显式地使用file.close()函数，如果采用with语句的话。如下所示：>>> from __future_...

2019-01-16 09:49:56 2510

转载 spool用法

关于SPOOL(SPOOL是SQLPLUS的命令，不是SQL语法里面的东西。)对于SPOOL数据的SQL，最好要自己定义格式，以方便程序直接导入,SQL语句如：select taskindex||'|'||commonindex||'|'||tasktype||'|'||to_number(to_char(sysdate,'YYYYMMDD')) from ssrv_sendsms_task...

2019-01-15 13:59:12 969

空空如也

空空如也