江陵之月-CSDN博客

原创 Spark Streaming的优化.小文件

Spark Streaming的优化.小文件小文件的处理增加batch的大小coalesce外部处理调用foreach进行追加小文件的处理方式：1)增加batch的大小2)coalesce3)外部处理4)调用foreach进行追加增加batch的大小原理：batch越大，从外部接收的event就越多，内存积累的数据也就越多，那么输出的文件数也就回变少适用：消息实时到达，但不想挤压在一起处理coalesce优点：可以在最终要输出的时候，来减少partition个数缺点：一个batch的处

2021-01-13 14:42:12 306

原创 JVM内存模型.总述篇

JVM内存区域.模型篇Java内存模型本地内存直接内存运行时数据区域程序计数器本地方法栈栈堆方法区运行时常量池JVM的内存区域的公有和私有问题JVM的内存分类堆内内存堆外内存Java内存模型别称：Java Memory Model、JMM作用：JMM定义了Java虚拟机(JVM)在计算机内存(RAM)中的工作方式本质：共享内存模型分类：1)JVM虚拟机数据区域2)本地内存含义：1)线程之间的共享变量存储在主内存中，每个线程都有一个私有的本地内存，本地内存中存储了该线程以读/写共享变量的副本2

2021-01-12 16:29:28 236

原创 Spark的容错机制

Spark的容错机制分布式数据集的容错Spark的容错机制Lineage机制依赖窄依赖宽依赖Checkpoint容错机制分布式数据集的容错方式：1)数据检查点：会发生拷贝，浪费资源2)记录数据的更新：默认方式。在部分计算结果丢失时，只需要根据这个Lineage重算即可。每次更新都会记录下来，比较复杂且比较消耗性能特点：Spark选择记录更新的方式Spark的容错机制对应：RDD的容错机制分类：1)Lineage机制2)Checkpoint机制Lineage机制含义：RDD的Lineage

2021-01-12 13:49:11 1344

原创 Spark UI

Spark Web UISpark Web UI实时UI管理JobsJobs DetailStagesStorageStorage DetailEnviromentExecutorSQL历史UI管理Spark Web UI分类：1)实时UI管理2)历史UI管理实时UI管理分类：1)Jobs2)Stages3)Storage4)Environment5)ExecutorsJobs作用：展示的是整个Spark应用任务的Job整体信息特点：Job默认都是串行提交运行的，如果Job间没有依

2021-01-12 13:45:20 1831

原创 Spark的优化.集群优化

Spark的集群调优Spark的集群调优数据本地性存储格式Spark的内存溢出Driver内存不够读取数据太大Driver内存不够.数据回传Executor内存不够map类操作产生大量数据Shuffle后产生数据倾斜Spark的集群调优方式：1)防止不必要的jar重复分发2)数据本地性3)存储格式选择4)资源隔离(打标签)5)NM JVM参数优化6)集群硬件环境数据本地性分类：1)PROCESS_LOCAL，第一选择2)NODE_LOCAL，第二选择3)ANY，第三选择存储格式分类

2021-01-12 13:40:22 187

原创 Spark的日志

Spark的日志YARN模式的日志查看聚合日志Web UI分散查看YARN模式的日志查看分类：1)聚合日志2)Web UI3)分散查看聚合日志别称：日志聚集含义：YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上参数：1)yarn.log-aggregation-enable是否启用日志聚合功能，日志聚合开启后保存到HDFS上。默认为false2)yarn.log-aggregation.retain-seconds在HDFS上聚集的日志最多

2021-01-12 13:35:49 496

原创 Spark的度量

Spark的度量Spark的度量InstanceSourceSinkSpark的度量别称：Spark的度量系统组件：1)Instance2)Source3)SinkInstance含义：指定了度量系统的实例名分类：1)Master2)Worker3)Application4)Driver5)ExecutorSource含义：指定了从哪里收集度量数据，即度量数据的来源分类：1)ApplicationSource2)WorkerSource3)DAGSchedulerSourc

2021-01-12 13:29:44 226

原创如何讲故事？

如何讲故事讲故事的技巧巧妙开头分清主次注重逻辑描述细节加强幽默讲故事的技巧分类：1)巧妙开头2)分清主次3)注重逻辑4)描述细节5)善用修辞6)加强幽默巧妙开头方式：1)顺叙快速列出时间、人物、地点、事件，制造悬念2)倒叙先抛出出人意料的结果，然后再娓娓道来分清主次特点：1)同一件事情，同一个故事，有很多的功能和角度，能够表达很多的观点，要学会根据讲故事的目的，去进行阐述2)同时，要分清主次，详略得当，不能太贪心，什么都想讲，就会让人厌烦注重逻辑特点：1)砍掉所有枝节，直

2021-01-06 16:32:13 244

原创时间管理

时间管理时间管理的概述时间管理的误区工作缺乏计划组织工作不当时间控制不够进取意识不强时间管理的原则明确目标有计划、有组织地进行工作分清工作的轻重缓急合理地分配时间制定规则，遵守纪律时间管理的概述关键：如何选择、支配、调整、驾驶在单位时间里所做的事情目的：1)怎样充分地利用时间来创造最大的价值2)怎样判断哪些是最重要的事件3)怎样在创造个人效益和社会(公司)效益的同时，还能够享受更加舒适的生活时间管理的误区分类：1)工作缺乏计划2)组织工作不当3)时间控制不够4)整理整顿不足5)进取意

2021-01-06 09:54:09 538 1

原创健身的基本知识(4)

拉伸运动拉伸运动主动拉伸被动拉伸拉伸运动的动作胸部拉伸肩部拉伸肱三头肌拉伸弓步上肢伸展蝶式伸展坐姿大腿后侧拉伸大腿后侧拉伸腓肠肌拉伸拉伸运动作用：拉伸运动可以使韧带肌肉和关节与关节之间的配合更加柔和，减少受伤可能性分类：1)主动拉伸2)被动拉伸主动拉伸含义：指主要依靠收缩肌肉的力量，而不是其他外力使动作保持在某一个特定的位置上优点：可以增加动作的柔韧性和收缩肌肉的力量特点：一般的主动拉伸姿势保持10秒钟就可以了，不需要太长的时间被动拉伸含义：指利用自身的体重或者是器械使肢体保持一定的伸展

2020-12-25 11:39:23 388

原创健身的基本知识(3)

热身运动的分类热身运动的分类一般性热身跑步机热身椭圆机热身专门性热身跨栏步压腿弓步压腿仆步压腿下蹲站姿接踵站姿立脚尖站姿夹背俯卧撑肩关节绕环体转运动膝关节运动踝腕关节运动热身运动的分类分类：1)一般性热身2)专业性热身一般性热身分类：1)跑步机热身2)椭圆机热身跑步机热身特点：1)头正肩平，目视前方，双肩与躯干稍夹紧，两大臂与躯干距离适中2)腰背部保持直立，挺胸收腹，肌肉稍微紧张以维持身体姿态3)上跑步机后应从慢走、慢跑等"动态"热身开始，逐渐加大运动量，此过程通常以10~15分钟为宜

2020-12-25 11:20:21 354

原创健身的基本知识(2)

热身运动的概述热身运动一般热身静止的肌肉拉伸专项运动热身动态的肌肉活动热身运动别称：准备运动含义：某些全身活动的组合，好的热身运动可以起到很好的帮助作用步骤：1)一般热身2)静止的肌肉拉伸3)专项运动热身4)动态的肌肉活动一般热身含义：指一般轻松的身体活动特点：包括运动的强度与一定的时间，根据身体的健康水平和运动竞技的状态来确定，评估的情况是一般人群应该是5到10分钟的时间，身体微微出汗。其目的是简单地促进心率的提高，刺激呼吸的频率，增加血流量和帮助运送氧料和营养物质给肌肉，同时帮助提高

2020-12-25 11:17:28 215

原创大话HDFS.HDFS的架构（说话很通俗哦，兄弟们可以看看）

HDFS是怎么回事？HDFS的来源HDFS的架构HDFS的来源有人在网上说分布式文件系统，对的，这个基本的理解还是对的。但是HDFS的英文是Hadoop Distributed FileSystem，也就是Hadoop专用的分布式文件系统。这个就真的那么原创的分布式文件系统吗？不是啊，其实它学习开源Google的GFS的。HDFS的架构其实分布式的架构，有很多都是主从架构，这个HDFS也不例外。其中的主节点叫什么呢？NameNode，相当于就是这个HDFS集群的领导，这个集群的部门领导究竟管理什么

2020-12-25 11:08:27 179

原创 MyCat的全局ID

MyCat的全局ID全局唯一ID使用数据库的auto_increment使用UUID使用Redis生成ID使用Twitter的snowflake算法使用ZooKeeper生成唯一ID使用MongoDB的ObjectID全局唯一ID特点：1)全局唯一2)趋势有序方式：1)使用数据库的auto_increment(自增ID)来生成2)使用UUID3)使用Redis生成ID4)使用Twitter的snowflake算法5)使用ZooKeeper生成唯一ID6)使用MongoDB的ObjectID

2020-12-11 15:57:50 550

原创 MyCat的概述及分片规则

MyCat的概述及分片规则MyCat数据库分片水平拆分垂直拆分切分总则MyCat的适用场景MyCat的不适用场景MyCat的分片规则枚举法固定分片hash算法范围约定求模法日期列分区法通配取模ASCII码求模通配编程指定字符串拆分hash解析一致性hashMyCat本质：中间件适用：MySQL、SQL Server、MongoDB、Oracle作用：1)数据库分片2)读写分离3)黑白名单限制优点：1)支持多种类型数据库的分片2)易扩展应用：1)单纯读写分离，此时配置最为简单，支持读写分离、

2020-12-11 15:54:46 701 1

原创 MySQL的存储引擎

MySQL的存储引擎MySQL的存储引擎静态表动态表压缩表MyISAMInnoDBMEMORYCSVArchive存储引擎与分区MySQL的存储引擎别称：表类型含义：不同的技术以及配套的相关功能在MySQL中被称作存储引擎分类：1)MyISAM2)InnoDB3)MEMORY4)MERGE5)ARCHIVE6)CSV7)MRG_MYISAM8)BLACKHOLE9)FEDERATED10)PREFORMANCE_SCHEMA静态表特点：1)静态表中的字段都是非变长字段，长度固定

2020-12-11 15:51:31 187

原创 MySQL的索引

MySQL的索引MySQL数据库索引普通索引唯一索引主键索引组合索引聚集索引非聚集索引MySQL数据库索引分类：普通索引、唯一索引、主键索引、组合索引普通索引特点：1)最基本的MySQL数据库索引2)它没有任何限制语句：1)CREATE INDEX indexName ON mytable(username(length));2)ALTER mytable ADD INDEX [indexName] ON (username(length));3)DROP INDEX [indexName]

2020-12-11 15:49:30 113

原创健身的基本知识(1)

健身的基本知识健身健身目标确立健身目标的依据目的性原则针对性原则全面性原则适量性原则循序渐进性原则安全性原则经常性原则有氧运动无氧运动健身分类：1)有氧运动2)无氧运动作用：1)自信心2)大脑的力量3)恐惧健身目标分类：1)减肥(减掉脂肪)2)增肌(增长肌肉)3)增加力量(不一定是增长肌肉)4)增加肌肉耐力(改善运动表现)5)改善心血管健康6)在某些运动上表现更好确立健身目标的依据分类：1)目的性原则2)针对性原则3)全面性原则4)适量性原则5)循序渐进性原则6)安全

2020-12-11 15:46:53 911

原创演讲的基本知识(2)

演讲的基本知识组织演讲内容设定演讲参数建立观众档案将演讲内容导入已知范围找出尚需努力的范围组织收集到的信息将内容概括成大纲演讲的开头提问式新闻式赞扬式套近乎式悬念式直入式道具式幽默式忠告式渲染式名言式即席式组织演讲内容步骤：1)设定演讲参数2)建立听众档案3)将演讲内容导入已知范围4)找出尚需努力的范围5)组织收集到的信息6)将内容概括成大纲设定演讲参数特点：1)对演讲者而言，集中思维，节省时间2)对听众而言，明确方向和目标分类：1)主题2)目的3)期望结果4)听众获益度建立观

2020-12-08 14:58:29 377

原创演讲的基本知识(1)

演讲的基本知识演讲演讲自信心有效演讲的要素语言声音普遍的发声问题运用声音视觉运用形体语言演讲优点：1)在短暂的时间内，它使一个人与一大群人一起分享其占有的观点和信息2)人人都有的一种潜在的能力，问题在于每个人是否发现、发展和利用这种天资演讲自信心分类：1)Practice 练习，克服恐惧最好方法2)Brain 积极肯定的自我暗示3)Hand 双手用力推墙或推桌子4)Nose

2020-12-08 14:54:27 257

原创 Java怎么入门？

Java怎么入门经常有朋友的弟弟妹妹或者哪个老师的孩子问我，要学习Java。刚刚开始看着代码，就一脸懵逼。问我有什么招式或者办法没有？我讲讲我的一些看法吧。自身经历初识阶段我记着大一那年，学校学习C语言，我问了下老师，这个已经用得多么？老师说这玩意其实大学考研或者考证有用，但是等到你们工作的时候，多数以Java居多。我从那时就开始折腾起Java啦。我刚刚学习的时候，也是买了本Java的书，然后看了一个概念，按照书上的代码敲。什么数据类型、数组、面向对象、集合操作、文件操作、数据库操作等

2020-12-08 14:03:40 189

原创 LVS的搭建.DR模式

节点规划真实主机(RS)：n13、n14虚拟主机(LVS)：n12Nginx：n13、n14n12(192.168.80.39)1.下载依赖包yum -y install ipvsadm2.echo 1 >/proc/sys/net/ipv4/ip_forward3.添加VIP(虚拟IP)ifconfig eth0:1 192.168.80.101 broadcast 192.168.80.101 netmask 255.255.255.255 up4.增加路由条目route

2020-12-07 11:19:19 141

原创 Oozie API操作.Java

Oozie API操作代码一package com.spark;import org.apache.oozie.client.OozieClient;import org.apache.oozie.client.OozieClientException;import org.apache.oozie.client.WorkflowJob;import java.util.Properties;/** * @program: test * @description: * @autho

2020-12-07 11:11:31 742

原创小文件存储方案

小文件存储方案小文件存储方案方式：1)基于HDFS存储方案2)基于HBase存储方案3)基于打包构建索引方案4)其他方案注意：建议在上层作一个逻辑处理层，在存储时先判断是大文件还是小文件，再决定是否用打包压缩还是直接上传至HDFS，可借鉴TFS方案基于HDFS存储方案分类：1)HAR2)SequenceFile3)CombinedFile基于HBase存储方案原理：1)从2.0版本开始，HBase多了一个MOB的结构2)MOB是由StoreFile和MOB File共同组成3)对

2020-12-07 09:38:39 868

原创数据迁移.Hive

Hive的数据迁移方式：1)使用Hive SQL进行数据的导入导出2)export/import方式使用Hive SQL进行数据的导入导出方式：1)将数据导出到本地INSERT OVERWRITE LOCAL DIRECTORY “路径” ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ SELECT 字段1, 字段2 ,… FROM 表名;2)将数据导出到HDFSINSERT OVERWRITE DIRECTORY “路径” ROW FORMAT D

2020-12-07 09:36:32 321

原创数据迁移.HBase

HBase的数据迁移HBase的数据迁移分类：1)copyTable方式2)Export/Import方式3)Snapshot方式copyTable方式作用：以表级别进行数据迁移适用：1)表深度拷贝2)集群间拷贝3)增量拷贝4)部分表备份特点：效率较低原理：涉及对原表数据Scan，然后直接Put到目标表Export/Import方式阶段：1)Export阶段将原集群表数据Scan并转换成Sequence File到HDFS上2)Import阶段将原集群Export出的Seq

2020-12-07 09:33:39 81

原创 HDFS的基础知识.原理篇（二）

机柜意识机柜意识别称：机架感知、Rack awareness含义：数据块会优先储存在离NameNode近的机器或者说成离NameNode机架近的机器上特点：1)如果一个机架出问题，不会影响数据读写2)写入数据的时候会写到不同机架的DataNode中3)MapReduce会根据机架获取离自己比较近的网络数据4)一个NameNode尽量将一个块的多个副本放在多个安装点(即机柜)上以提高容错能力。每个节点都知道它的机柜ID5)HDFS允许管理员决定一个节点属于哪个安装点作用：1)可以带来性能和安

2020-12-07 09:30:09 357

原创 HDFS的基础知识.原理篇（1）

HDFS的原理原理：分布式的文件存储系统，将一个大的文件，分割成多个小的文件，进行存储在多台服务器上HDFS的读写机制HDFS文件写入过程原理：1)Client向NameNode发起文件写入的请求2)NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息3)Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中步骤：1)客户端通过对DistributedFileSystem对象调用create函

2020-12-07 09:27:32 232

原创数据迁移.Hadoop

Hadoop的数据迁移分类：1)DistCp方式2.DistCp方式别称：DistCp、Distributed Copy、分布式拷贝作用：用于大规模集群内部和集群之间拷贝的工具特点：1)它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成2)它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝方式：1)hadoop distcp hdfs://src-hadoop-address:9000/table_name hdfs://dst-hadoop-a

2020-12-05 21:24:33 132

原创数据迁移.ZooKeeper

ZooKeeper的数据迁移方式：1)原生命令行2)zkcopy原生命令行步骤：1)找到服务器上的ZooKeeper安装路径vi /usr/local/zookeeper-3.4.9/conf/zoo.cfgdatadir=/usr/local/zookeeper-3.4.9/data2)查看最新的log和快照数据cd /usr/local/zookeeper-3.4.9/data/version-2/3)把最新的两个文件拷贝到另外的ZooKeeper服务目录下sz log.f32bb

2020-12-05 21:23:19 397

原创大数据测试的知识点

大数据测试分类：1)功能性测试2)非功能性测试功能性测试步骤：1)数据导入/预处理验证阶段2)MapReduce数据输出验证阶段3)验证大数据ETL到数据仓库4)验证分析报告数据导入/预处理验证方式：1)输入文件与源文件进行比对，保证数据的一致性2)根据数据需求来保证获取数据的准确性3)验证文件被正确的加载进HDFS，且被分割，复制到不同的数据节点中MapReduce数据输出验证阶段方式：1)验证梳理数据处理正常完成，输出文件正常得到2)在单个节点上验证大数据的业务逻辑，进而在多

2020-12-05 21:19:50 521

原创 Openstack页面操作.使用实例(Icehouse版)

1.“管理员"下"Compute"的"实例”，点击"+启动云主机"2.点击云主机"test"3.“云主机详情：test"界面，点击"控制台”4.“云主机控制台"点击"点击此处只显示控制台”5.登录实例cirros login：cirrosPassword：cubswin:)6.输入命令1)pwd2)ls /3)cd /...

2020-12-05 21:09:47 436

原创 Openstack页面操作.挂载云硬盘(Icehouse版)

1.“管理员"下"Compute"的"云硬盘”，点击"+启动云主机"2.在云硬盘"test0001"点击"更多"，再点击"编辑挂载"2."管理已连接云硬盘"界面连接到云主机：test(bf64af12-3eda-450a-ad88-ba044019e096)

2020-12-05 21:09:01 663

原创 Openstack页面操作.创建实例(Icehouse版)

1.“管理员"下"Compute"的"实例”，点击"+启动云主机"2."启动云主机"界面可用域：nova云主机名称：test云主机类型：m1.tiny云主机数量：1云主机启动源自：从镜像启动镜像名称：cirros-0.3.2-x86_64(12.6MB)...

2020-12-05 21:08:19 431

原创 Openstack页面操作.创建云硬盘(Icehouse版)

1.“项目"下"Compute"的"云硬盘”，点击"+创建云硬盘"2."创建云硬盘"界面云硬盘名称：test0001描述：类型：ttt大小(GB)：云硬盘源自：镜像使用镜像作为源：cirros-0.3.2-x86_64(12.6MB)可用域：nova

2020-12-05 21:07:04 945

原创 Openstack页面操作.创建云硬盘类型(Icehouse版)

1.“管理员"下"系统面板"的"云硬盘类型”，点击"+创建云硬盘类型"2.“创建云硬盘类型"界面，名称填"ttt”

2020-12-05 21:06:19 508

原创虚拟机实例配置运行(Icehouse版)

节点规划Controller：openstack1Computer：openstack2、openstack3openstack11.配置环境变量1)vi demo.sh export OS_USERNAME=demo export OS_PASSWORD=DEMO_PASS export OS_TENANT_NAME=demo export OS_AUTH_URL=http://openstack1:35357/v2.02)source demo.sh2.创建无密钥1)s

2020-12-05 21:05:00 131

原创 Cinder安装(Computer节点、Icehouse版)

节点规划Controller：openstack1Computer：openstack2、openstack3openstack1openstack21.添加硬盘1)VMware Workstation的主界面，对准openstack，点击"虚拟机(M)"，选择"设置(S)…"2)进"虚拟机设置"界面，左下方点击"添加(A)…"3)“添加硬件向导"的"硬件类型"界面，选择"硬盘”，点击"下一步(N)>"4)“添加硬件向导"的"选择磁盘类型"界面，选择"SCSI(S)(推荐)”，点击"

2020-12-05 21:02:16 155

原创 Cinder安装(Controller节点、Icehouse版)

节点规划Controller：openstack1Computer：openstack2、openstack3openstack11.下载依赖包1)yum -y install openstack-cinder2.OpenStack配置1)openstack-config --set /etc/cinder/cinder.conf database connection mysql://cinder:CINDER_DBPASS@openstack1/cinder3.MySQL配置 1)m

2020-12-05 20:59:40 162

原创 Dashboard安装(Icehouse版)

节点规划Controller：openstack1Computer：openstack2、openstack3openstack11.安装Django141)cd ~2)rpm -ivh Django14-1.4.8-1.el6.noarch.rpm (网上下载该rpm包)2.下载依赖1)yum -y install memcached2)yum -y install python-memcached3)yum -y install mod_wsgi4)yum -y

2020-12-05 20:57:56 176

12_Snake.rar

空空如也