- 博客(24)
- 资源 (4)
- 收藏
- 关注
原创 Spark 部署
独立集群部署修改 spark-env.shexport JAVA_HOME=/data/soft/jdk1.8export SPARK_MASTER_HOST=master修改 slavessalve1slave2启动集群sbin/start-all.sh
2021-10-24 20:13:52 3166
原创 Hive 部署
安装Hive设置Hive环境变量HIVE_HOME=/usr/local/software/hiveexport PATH=$PAHT:$HIVE_HOME/bin HIVE_HOME创建HDFS目录hdfs dfs -mkdir -p /usr/hive/warehousehdfs dfs -mkdir -p /usr/hive/tmphdfs dfs -mkdir -p /usr/hive/loghdfs dfs -chmod g+w /usr/hive/warehousehdfs
2021-10-22 10:52:38 144
原创 hadoop,普通集群部署,高可用集群部署
基础配置切换清华源备份,将 CentOS-Base.repo 为CentOS-Base.repo.backupcp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup编辑 /etc/yum.repos.d/Centos-Base.repo# CentOS-Base.repo## The mirror system uses the connecting IP address of the cli
2021-10-22 10:45:15 181
原创 Java8 的新功能流:streams
Stream APIjava.util.stream:其中包含用于处理元素序列的类StreamStream Creationstream() or of()String[] arr = new String[]{"a", "b", "c"};Stream<String> stream = Arrays.stream(arr);stream = Stream.of("a",...
2019-10-22 16:55:52 177
原创 Maven package、install、deploy的区别
命令执行的命令功能及区别packageresources、compile、testResources、testCompile、test、jar项目编译、单元测试、打包功能,但没有布署到本地maven仓库和远程maven私服仓库installresources、compile、testResources、testCompile、test、jar、install项目...
2019-10-22 16:53:24 268
原创 Spring缓存注解@Cacheable、@CachePut、@CacheEvict、@CacheConfig等
@Cacheable@Cacheable是用来声明方法是可缓存的。将结果存储到缓存中以便后续使用相同参数调用时不需执行实际的方法。默认key的生成按照以下规则:如果没有参数,则使用0作为key如果只有一个参数,使用该参数作为key如果又多个参数,使用包含所有参数的hashCode作为key自定义key:直接使用字符串,如“1”支持SpringEL表达式,如“#demo.id”...
2019-10-22 16:50:10 508
原创 Hadoop的shuffle和排序
目录map 端reduce 端配置调优map 端调优属性reduce 端的调优属性系统进行排序、将 map 输出作为输入传给 reducer 的过程被称为 shuffle。map 端map 函数开始产生输出时,会利用缓冲的方式写到内存并出于效率的考虑进行预排序。每个 map 任务都有一个环形内存缓冲区用于存储任务输出,默认缓冲区大小为 100MB,可通过 mapreduce.task.i...
2019-10-21 16:47:20 398
原创 Hadoop 用户命令详解
Hadoop 集群用户的常用命令hadoop [–config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS]archive创建一个hadoop档案文件。hadoop archive -archiveName NAME * 命令选项描述-archiveName NAME要创建的档案的名字sr...
2019-02-25 11:46:04 2837
原创 Hadoop FS 命令详解
FS Shell调用文件系统(FS)Shell命令应使用 hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme。一个H...
2019-02-25 10:44:39 8058
原创 运行 jar 包时,使用 File 报错
在运行jar包时,通过 getClass().getClassLoader.getResource("filename").getFile() 获得的文件路径采用的是:jar:<url>!/{entry},不能被 File 找到,所以需要采用数据流的形式getClass().getClassLoader.getResource("filename").openStream()即可。以...
2019-02-21 17:51:54 431
原创 mac 出现 Operation Not Permitted
重启电脑,按下 Command + R 直到听到开机声音,此时电脑会进入恢复模式(Recovery Mode)当 OSX 工具出现在屏幕中时,下拉工具(Utilities)菜单,选择终端(Terminal)键入 csrutil disable,回车电脑重启后,SIP 就关闭了...
2019-02-21 17:49:49 6242
原创 Java 集合:Set、Map、List、Queue 知识点总结 思维导图
原始mmap及html文件链接:https://github.com/narata/Interview-Knowledge
2019-02-21 17:39:26 480
原创 Java 多线程 思维导图
原始mmap及html文件链接:https://github.com/narata/Interview-Knowledge
2019-02-21 17:29:39 521
原创 Java 常量池思维导图
原始mmap及html文件链接:https://github.com/narata/Interview-Knowledge
2019-02-21 17:26:30 426
原创 高频面试知识 思维导图 流程图等
高频面试知识 思维导图 流程图等目录结构:Java数据库数据结构网络文件列表:JavaJava内存管理(分配与回收)常量池多线程集合线程池虚拟机性能监控与故障分析线程安全与锁优化数据库SQL语句网络DNS解析HTTP与HTTPSTCP数据结构链接:https://github.com/narata/Interview-...
2019-02-21 17:17:33 393
原创 git push 或 pull 出错:refusing to merge unrelated histories
关联本地项目到新建github空项目后,pull及push提示如下错误Git Pull Failed* branch master -&gt; FETCH_HEAD= [up to date] master -&gt; origin/masterrefusing to merge unrelated histories或者Push ...
2019-02-21 17:04:25 1510
原创 读取本地ORC文件,返回OrcStruct列表
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hive.ql.exec.vector.VectorizedRowBatch;import org.apache.orc.OrcFile;import org.apache.orc.Rea...
2019-02-21 16:22:25 2262
原创 Hadoop学习笔记:MapReduce 编程进阶
数据类型Hadoop 使用派生于 Writable 接口的类作为 Mapreduce 计算的数据类型。value 数据类型,必须实现 org.apache.hadoop.io.Writable 接口,此接口确定了如何进行序列化与反序列化。key 数据类型必须实现 org.apache.hadoop.io.WritableComparable 接口,定义了键的相互比较。WritableCom...
2019-02-15 14:42:28 640
原创 Hadoop 学习笔记:关于 Spark
Spark 是用于大数据处理的集群计算框架,没有以 MapReduce 作为执行引擎,而是使用了自己的分布式运行环境在集群上执行工作。Spark 与 Hadoop 紧密集成,他可以在 YARN 上运行,并支持 Hadoop 文件格式及其存储后端(如 HDFS 等)。Spark 将作业与作业之间产生的大规模的工作数据集存储在内存中,性能比 MapReduce 可高出一个数量级。从 Spark ...
2019-02-14 14:50:16 221
原创 Hadoop学习笔记:HDFS 基础
HDFS:Hadoop Distributed FilesystemHDFS 的设计HDFS 以流式数据访问模式来存储超大文件,运行于商用硬件集群上。特点超大文件:指几百 MB、几百 GB 甚至几百 TB。流式数据访问:HDFS 的构建思路是,一次写入,多次读取;每次数据分析都将涉及数据集的大部分甚至全部,因此,读取整个数据集的时间延迟比读取一条记录的时间延迟更重要。商用硬件:Ha...
2019-02-12 12:03:09 231
原创 Hadoop学习笔记:Zookeeper 基础
是 Hadoop 的分布式协调服务从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式解决什么问题统一命名服务(Name Service)将有层...
2019-02-12 12:00:49 184
原创 Hadoop学习笔记:Hive详解
基础hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。用来开发SQL类型脚本用于做MapReduce操作的平台。架构单元名称操作用户接口/界面Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的We...
2019-02-12 11:51:09 241
原创 Hadoop学习笔记:关于YARN
Apache Yarn :Hadoop集群资源管理系统运行机制提供请求和使用集群资源的API,但很少直接用于用户代码;用户代码中使用的大多是分布式计算框架提供的更高层API,这些API建立在Yarn之上,且向用户隐藏了资源管理细节。Yarn 通过两类长期运行的守护进程提供自己的核心服务:管理集群上资源使用的资源管理器(resource manager)、运行在集群中所有节点上且能够启动和监控...
2019-01-28 20:48:48 216
Scala程序设计 第2版 高清 带目录
2019-07-11
图解设计模式(完整版)
2019-02-28
Hibernate api 5.3.5.Final
2018-08-24
Spring api 5.0.8
2018-08-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人