傷訫-CSDN博客

原创 Scala语言的基础知识与简单应用(主要是Scala的判断与循环)

今日内容 0.值类型隐式转换 1.强制类型装换 2.值类型和字符串类型的转换 3.判断语句 4.循环语句 5.循环跳出语句 6.元祖的介绍和使用 7.数组的介绍和使用 8.集合的介绍和使用 0.隐式转换(高阶隐式转换和隐式函数,这里我们先不讲) 当scala程序在进行赋值或者运算的时候,精度小的类...

2019-07-07 21:19:18 333

原创初识Scala与Scala的简单应用

今日内容 1.为什么要学习scala? 2.scala的介绍 3.与java语言的对比 4.编译工具的安装 5.main方法讲解 6.常量和变量 7.数据类型 8.懒加载 9.差值器 1.为什么要学习scala? 1)离线计算 2)在线计算 spark scala a.s...

2019-07-05 17:03:39 267

原创菜鸟进阶(idea快捷键的使用)

备注：快捷键在项目工程名上右键选择refactor-->rename,可以重命名alt+enter 快速补充jar包右键 generate快速生成get/set方法添加try-catch ctrl+alt+t导入maven库：setting --->tools--->maven---->maven下的setting以及maven库IDEA的常用操作（快捷...

2019-06-21 21:45:36 234

原创菜鸟进阶(Hive的深入应用，分区和分桶）

导入数据： 1、load data local inpath '/root/tes.txt' into table test.usr; 将本地的数据导入到hive中 2、load data inpath 'hdfs://node01:9000/user/tes.txt' into table test.te; 从hdfs集群导入数据 ...

2019-06-20 20:56:46 461

原创菜鸟进阶(Hive的安装与使用)

1.上传tar包2.解压 tar -zxvf hive-1.2.1.tar.gz3.安装mysql数据库推荐yum 在线安装（运行脚本安装）4.配置hive （a）配置HIVE_HOME环境变量 vi conf/hive-env.sh 配置其中的$hadoop_home （b）配置元数据库信息 ...

2019-06-19 21:31:49 988

原创菜鸟进阶(hadoop生态圈的简单知识点串联)

hadoop生态圈 1、common 2、hdfs—分布式存储（多台节点协同工作） 2.1 角色—NN DN SNN 2.2 工作机制、读写机制----block块（1.x 64M 2.x 128M） ...

2019-06-18 21:30:02 181

原创菜鸟进阶(zookeeper)

zookeeper分布式协调服务配置zoo.cfg----配置文件datadir----自己定义的目录路径server.1=node1:2888:3888 第一台虚拟机地址server.1=node1:2888:3888 第二台虚拟机地址server.1=node1:2888:3888 第三台虚拟机地址2888端口：提供zookeeper对外通信3888端口：当leader挂掉之...

2019-06-18 21:26:39 137

原创菜鸟进阶(Map,Reduce,Shuffle详解)

Map的详解:1:每个大文件会切成N个小文件或切片2:默认按照block大小进行切分3:每个小文件或切片对应一个maptask4:部分文件压缩格式无法Split,所以上传文件的时候请注意压缩包类型Combiner的应用：由以上两个图片我们可以看出有没有Combiner对WordCount的影响，而Combiner是map端的小范围reduce操作，用好了事半功倍，用不好影响结果的...

2019-06-17 16:56:21 417

MapReduceMapReduce 综述MapReduce是一种计算模型，该模型可以将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务，而这些任务的计算结果可以合并在一起来计算最终的结果。简而言之，Hadoop Mapreduce是一个易于编程并且能在大型集群（上千节点）快速地并行得处理大量数据的软件框架，以可靠，容错的方式部署在商用机器上。MapReduce这个术语来自...

2019-06-14 15:31:21 168

原创菜鸟进阶大数据第五天(搭建外部客户端)

1、配置环境变量1.1 配置jdk的环境变量1.2 配置hadoop的环境变量变量名：HADOOP_HOME 路径：自己HADOOP的地址修改Path %HADOOP_HOME%\bin1.3 修改系统用户名在系统变量中新建HADOOP_USER_NAME 值为root2、配置eclipse环境2.1在eclipse启动之前，将hadoop-eclipse-...

2019-06-13 20:53:23 169

原创菜鸟进阶大数据第四天(伪分布式集群的搭建和配置免密登录)

在Xshell里操作1:上传文件------使用命令rz 如果在你的Xshell里用不了这个命令，你可以先执行yum install lrzsz -y先下载2：解压jdk的压缩包 tar -zxvf 压缩包名3:配置环境变量 export JAVA_HOME=/opt/software/jdk1.8.0_121 export PATH=$PATH:$JAVA...

2019-06-12 15:47:48 303

原创菜鸟进阶大数据第三天（SecondaryNamenode----持久化）

Namenode掌握一批元数据放在内存里内存分为硬盘（内存大，便宜，但是慢）和内存（内存小，贵，但是速度快）为了保证元数据的安全----将内存中的数据存放在磁盘中的行为就是持久化当我们的集群因断电等特殊原因产生问题的时候，问题解决，重新开机，会去磁盘上读取元数据，恢复到断电前的状态Namenode不能做持久化的原因可以做:需求小，占用内存小，不影响计算效率时。不可以做:NN本身的工作已...

2019-06-11 22:02:04 194

原创菜鸟进阶大数据第二天（主要是大数据的概述）

大数据：自己的定义：在短时间内快速产生大量多种多样的有价值的信息而为了解决大数据数据量过大的问题，所以产生了垂直扩展和横向扩展。垂直扩展是在一个服务器上分多个块横向扩展是增加多个廉价的服务器根据谷歌的三大论文所以产生了1：GFS--------HDFS分布式文件系统（分布式的存储） 2：MapReduce-------分布式的处理3：BigData-------------HBa...

2019-06-10 20:59:05 1401 3

原创菜鸟进阶大数据第一天

今天主要是了解了linux命令与大数据之间的联系，也深入学习了linux的一些命令，总结下来主要是以下几点：1：数据流主要分为输入和输出，输出又分为标准输出和错误输出。2：变量变量分为本地变量，局部变量，环境变量，特殊变量和位置变量本地变量：最简单就是直接在脚本中定义一个变量变量名=变量值局部变量：用local声明并且在函数里定义的变量环境变量：用export声明的变量特...

2019-06-10 15:10:40 224

转载新手入门计算器

啥都不多说，直接上代码#！/bin/bashread -p “请输入第一个数字” num1read -p “请输入运算符” fuhaoread -p “请输入第二个数字” num2if [ “$fuhao” == “+” ]thenecho num1+num1+num1+num2=((((((num1 + num2))elif["num2))elif [ &amp...

2019-06-09 23:10:27 296

doubimen的博客