白菜banger-CSDN博客

原创 Spark的笔记05

spark默认端口修改修改WENUI 端口：在spark/conf/vim spark-env.sh 内写入export SPARK_MASTER_WEBUI_PORT=8888（默认为8080，这里改为8888）或临时环境变量：export SPARK_MASTER_WEBUI_PORT=9999`export -n :删除零时变量Master HA配置两种方式1.本地文件...

2019-07-24 21:49:43 167

原创 Spark的笔记04

1.Spark Submit提交任务启动Driver Driver启动 -注册application-申请资源2.Driver启动注册Application申请资源3.Master划分资源 – 资源调度 1.Execute在集群中是分散启动的,利于数据处理的本地化 2.如果提交任务什么都不指定,集群中每台Worker为当前的application 启动一个Executor,这个Ex...

2019-07-24 20:24:30 147

原创 Spark的笔记03

一.Spark的资源调度和任务调度资源调度1.集群启动，Worker向Master汇报资源，Master掌握集群的资源信息2…客户端提交Spark任务，创建两个对象 DAGScheduler 和TaskScheduler ,TaskScheduler 向Master申请资源3.Master找到到满足资源的Worker，启动Executor4.Executor启动之后，反向注册给Driv...

2019-07-24 20:23:35 163

原创 Spark的笔记02

1.基于Yarn提交Spark任务的配置? 在Spark的客户端 …/spark/conf/spark-env.sh 配置: export HAOOP_CONF_DIR = $HADOOP_HOME/etc/hadoop命令：./spark-submit --master yarn --class jar 参数2.Spark基于Standalone提交任务两种方式及二张图。cl...

2019-07-24 20:22:23 104

原创 spark的笔记01

1.Spark & MR相对速度快的原因？ 1).Spark可以基于内存处理数据，MR基于磁盘处理数据。 2).Spark中有DAG有向无环图 3).Spark多个任务之间数据通信是基于内存，而Hadoop是基于磁盘。总结:在处理数据的时候,Spark中的job会使用前一个在内存中存放的rdd,这样的就不会有2.完成Spark java版本WordCount &...

2019-07-24 20:21:26 104

原创 Spark总结

一、SparkCoreSpark是一个计算框架，可以基于内存处理数据Spark & MR区别1.Spark可以基于内存处理数据，MR基于磁盘处理数据2.Spark有DAG有向无环图Spark技术栈SparkCore, SQL，StreamingHadoopMR,Hive, Storm ,HDFS,YarnSpark 运行模式L...

2019-07-18 21:53:54 96

原创 Scala语言知识总结

Scala语言Scala是基于JVM的语言一.六大特性 1.与Java无缝整合 2.类型推断 3.支持分布式和并发Actor 4.Trait特质特征 5.模式匹配match 6.高阶函数二.类和对象 1.当new类时,类中除了方法不执行,其他都执行 2.object相当于Java中单例,定义的都是静态的 3.class可以传参数,传参就有默认的构造 4...

2019-07-17 09:58:18 167

原创 Scala基础概念

var，val和def三个关键字之间的区别？var 为定义变量,类似于Java中的变量，变量值可以更改，但是变量类型不能更改。val 为定义常量.def 为创建函数（注意方法和函数的区别）trait（特质）和abstract class（抽象类）的区别？如果你想定义一个类似接口的类型, 但是可能会在特质和抽象类之间难以取舍. 这两种形式都可以定义一个类型的一些...

2019-07-16 20:20:40 138

原创 python知识总结

列表和元组之间的区别:python的元组与列表知类似,不同之处是元组的元素不能修改,元素使用(),而列表使用[]Python中的继承:和Java一样python也有继承的概念,父类的所有的属性和方法都可以被子类继承,但是子类虽然没有父类的__init__方法,但是父类有,所以在子类继承父类的时候,这个方法就被子类继承了.1.子类在继承父类的时候,在定义类时,小括号()中为父类的类名...

2019-07-15 19:59:22 101

原创 python基础

一、python中的标识符命名规则1.标识符由字母,下划线和数字组成,且不数字不能开头,不能有特殊符号:\ / , @ ~等2.见名知意:提高代码可读性(python中标识符是区分大小写的),驼峰法则3.不能具有关键字:查看关键字:(保留字)And as assert break cl...

2019-07-12 21:11:16 108

原创 hive和hbase同步

https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration1、把hive-hbase-handler-1.2.1.jar cp到hbase/lib 下同时把hbase中的所有的jar，cp到hive/lib2、在hive的配置文件增加属性：hbase.zookeeper.quorumnode5,node6,nod...

2019-07-09 17:14:06 298

原创 hbase的优化思路

hbase的优化思路表的设计: 1.由于刚开始数据不多的时候,所有的数据都往一个region里面写,直到数据量足够庞大,才会切分.这样的话所有数据都往一个region里面写,会导致数据写入速度慢.提高写入速度的一个方法是可以预先创建一些空的region,这样的话数据写入的时候,会按照region的分区情况,在集群内做负载均衡,提高写入速度. 2.设计表的时候rowkey的规则越小越好...

2019-07-02 21:18:35 108

hbase的架构:在Hbase中,Client是访问Hbase的接口,维护cache来加快对Hbase的访问.zookeeper用来协调HMather与Client的,保证一个集群中只有一个活跃的HMather,并用来监控RegionServer的上线,下线信息.实时通知给HMather.存储Hbase的schema和table元数据.HMather主要负责对HregionServer进行管...

2019-07-01 20:43:50 248

原创 Hbase完全分布式安装

NN DN ZK Master Backup-Master RegionServernode1 1 1 1node2 1 1 1 1node3 1 1 1node4 ...

2019-07-01 14:59:34 119

原创 Hive的优化

Hive的优化Hive的运行方式:开启hive服务 :在服务区端开启hive --service metastore本地模式:set hive.exec.mode.local.auto=true;集群模式:set hive.exec.mode.local.auto=false; 注意:hive.exec.mode.local.auto.inputbytes.max默认为128M,超过...

2019-06-29 17:41:53 134

原创 HiveSql

HiveSql案例数据:人员表id,姓名，爱好，住址1,小明1,lol-book-movie,beijing:xisanqi-shanghai:pudong2,小明2,lol-book-movie,beijing:xisanqi-shanghai:pudong3,小明3,lol-book-movie,beijing:xisanqi-shanghai:pudong4,小明4,lol-b...

2019-06-28 16:28:56 115

原创 Hive wordcunt

单词统计:数据:hello hello wordhello wc wc wcbye byehello wordhello nihao chaina创建数据表:(只有一个列不需要row format)create table wc (line string);放入数据:load data local inpath '/root/table/wc' into table wc...

2019-06-28 16:20:13 265

原创安装HIVE

安装HIVE单用户搭建:使用压缩版本:1.解压缩hive到/opt当中2.配置环境变量 vim /etc/profile3.在conf文件夹下配置信息修改配置文件:mv hive-default.xml.template hive-site.xml 配置以下信息:<configuration> <property> <name...

2019-06-27 16:21:03 89

原创启动HDFS集群脚本

#!/bin/bash#启动zookeeperfor node in node01 node02 node03do ssh $node "source ~/.bash_profile; zkServer.sh start"done#等待2秒sleep 2start-dfs.shsleep 2#启动yarnssh node03 "source ~/.bash_prof...

2019-06-27 15:17:37 603

原创在Linux下安装mysql

一.配置本地源(阿里源也一样,本地的安装快一点)二.使用yum方式安装:1.安装mysql:yum install mysql-server2.开启服务:service mysqld start3.如果嫌麻烦设置开机启动:chkconfig mysqld onchkconfig mysqld --list //查看状态全是on表示开机启动正常4.进入mysql:mysq...

2019-06-27 11:46:51 145

原创 Kafka配置

Kafka文档一、Kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网：https://kafka.apache.org/kafka集群有多个Broker服务器组成，每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consum...

2019-06-27 09:29:41 85

原创 storm计算模型

Storm是个实时的、分布式以及具备高容错的计算系统Storm进程常驻内存Storm数据不经过磁盘，在内存中处理Topology – DAG有向无环图的实现:对于Storm实时计算逻辑的封装即，由一系列通过数据流相互关联的Spout、Bolt所组成的拓扑结构生命周期：此拓扑只要启动就会一直在集群中运行，直到手动将其kill，否则不会终止（区别于MapReduce当中的Job，MR当中...

2019-06-25 09:03:47 282

原创 storm-流式处理框架

storm系统架构Storm 是一个分布式的,可靠的,容错的数据流处理系统,Nimbus是调度中心,Supervisor是任务执行的地方,Supervisor上面有若干个Worker,每个Wroker都有知己的端口号,相当于一个进程.另外,每个Worker中还可以运行若干个线程.当客户端向Storm集群提交了一个Topology时(storm javr xxxx)启动Topolpgy.如果...

2019-06-24 19:53:04 187

原创 elasticsearch环境部署测试

共享模式下：useradd sxtecho sxt | passwd --stdin sxtsu sxtroot 用户创建 /opt/sxt/es(普通用户无法创建)mkdir -p /opt/sxt/es (注意：此时的目录权限属于root)在附近目录尚学堂下执行： chown sxt:sxt es单节点模式下root用户：安装解压程序ftp拷贝至根目录下，或者software...

2019-06-21 20:31:35 115

原创 elasticsearch

简述什么是倒排索引倒排索引是实现"单词-文档矩阵"的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表,倒排索引主要由两个部分组成"单词词典"和倒排文件".ElasticSearch与Solr优缺点对比当单纯的对已有数据进行搜索时，Solr更快当实时建立索引时, Solr会产生io阻塞，查询性能较差。实时建立索引 Elasticsearch具有明显的优势...

2019-06-21 20:29:16 70

原创 zookeepper总结

高可用一致性协调框架的老大哥，“动物界的管理员”**一. zookeeper的CAP定理C:Consistency一致性,数据一致更新,所有数据变动都是同步的A:Availability,可用性,是指系统在对外提供服务的时候,必须一直处于可用状态,对于每一个操作请求总是能够在有限的时间内返回结果P:Partition tolerance:分区容错性.如果在遇到任何网络分区故障的时候,仍然需...

2019-06-20 20:45:39 590

原创 redis集群安装步骤

redis的gem包下载地址:https://rubygems.org/gems/redis/versions/3.0.0拷贝redis-3.0.4.tar.gz到linux解压编译安装/opt/cluster将redis源码包中的src下的redis-trib.rb拷贝到/opt/cluster将redis源码包中的redis.conf拷贝到/opt/cluster/bin安装...

2019-06-20 15:17:06 70

原创 Redis 持久化

一.Redis 持久化转换将数据从掉电易失的内存存放到能够永久存储的设备上二.Redis持久化方式: RDB(Redis DB): hdfs :fsimage 快照 AOP(AppendOnlyFile) hdfs: edit logs 关闭的三.RDB: 在默认情况下,Redis将数据库快照保存在名字为dump.rdb的二进制文件中方式: 1.阻塞方式(停服):客户端中...

2019-06-20 09:33:16 66

原创 redis存储方式 Key VALUE (非关系数据库)

redis存储方式 Key VALUE (非关系数据库)String 类型:基本命令:创建数据: redis-cli -n 1//选择数据库(1号,一共16个),数据库从0开始,默认为0号数据库[1-15] set k1 abc//存储一个键为k1 值为abc的数据 get k1 //获取键为k1的数据 set k2 123 nx//not exist没有键时才允许创建...

2019-06-19 16:26:32 2937

原创 redis单节点安装步骤及其使用

下载地址:http://download.redis.io/releases/redis单节点安装：1、redis下载http://download.redis.io/releases/2、redis的tar包上传到linux3、解压tar -zxf redis-2.8.18.tar.gzcd redis-2.8.184、安装gcc、tcl到此处：https://opsx.al...

2019-06-19 14:41:38 277 1

原创 yarn资源调度流程

2019-06-17 08:57:02 704

原创 MapreDuce执行过程

2019-06-13 22:11:01 82

原创 DFSH高可靠原理

Active NameNode: 一个集群只有一个Active，接受客户端的读写请求，记录edits日志（元数据）。StandbyNameNode : 一个集群中可能有多个Standby。合并edits和fsimage文件，从而更新fsimage。等待 ActiveNameNode的死亡。JournalNode：共享edits日志文件。当ANN写入一条日志的同时，往Journ...

2019-06-13 20:17:03 545

原创实现tomcat自动启动shell编程

#!/bin/bash## tomcat## chkconfig: 2345 88 86# description: tomcat server. \# This service starts up the OpenSSH server daemon.#. /etc/rc.d/init.d/functionstomcat_home="/root/tom...

2019-06-10 08:54:26 259

原创 Linux中rpm和yum安装软件

一、RPM 安装Redhat提供了rpm管理体系已经编译的软件包：针对不同的平台系统编译目标软件包操作系统维护安装信息软件包包含依赖检查，但，还需人为解决特点：已经编译好的不能选择安装路径：安装路径在制作rpm文件时候已经指定安装完成之后由rpm命令统一管理没有解决依赖关系rpm安装的命令：-ivh filename--prefixrpm升级：-Uvh-Fvhrp...

2019-06-05 20:35:40 99

原创 Linux下编译安装.tgz、.rpm的常用方法

tgz文件是linux下的一种压缩文件格式(如windows下的.rar或.zip)，必须先解压出来，然后配置安装，可以使用命令:1.解压缩到当前目录tar xvfz 软件名.tgz#要解压缩Python-3.6.1 ,就是 tar xvfz Python-3.6.1.tgz#解压缩之后在当前目录生成Python-3.6.1的目录,里面包含了配置和编译所需的文件2.cd命令切换到解开的...

2019-06-05 16:09:57 2745

原创 Linux的用户与权限

一.创建新用户:useradd XXX添加密码: passwd xxx (输入两次密码)二.删除用户1.删除目录-userdel xxx --> cd /home/ --> ls -->rm -rf xxx/ --> ls 查看是否删除成功2.如果删除成功,还要删除一个目录(邮箱地址)-cd /var/spool/mail/ --> ls(此...

2019-06-04 22:12:02 64

原创 Linux的文本处理

cut:显示切割的行数据–f:选择显示的列-s:不显示没有分隔符的行-d:自定义分隔符sort:排序文件的行-n:按数值排序-r:倒叙-t:自定义分隔符-k:选择排序列-u:合并相同行-f:忽略大小写...

2019-06-04 21:39:58 98

原创大数据学习第二天（linux命令）

**一、简单命令**type:命令类型-外部命令 & 内部命令help：内部命令帮助–help：内部命令清单，附带语法格式，描述–help:具体内部命令man:帮助手册manual–yum install man man-pages -ywhereis:定位命令位置file:文件类型echo:打印到标准输出$PATH:环境变量：路径$LANG/etc/profil...

2019-06-04 20:41:12 90

原创 linux虚拟机安装

大数据学习笔记(第01天)一、什么是大数据？数据量多到爆表就称为大数据二、Linux虚拟机配置（图）

2019-06-03 20:51:08 122

空空如也

空空如也