- 博客(18)
- 问答 (11)
- 收藏
- 关注
原创 Flink安装
Flink安装① 上传并解压tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C /usr/soft/"## bin #执⾏脚本⽬录"## conf #配置⽬录"## examples #案例jar"## lib # 依赖的jars"## LICENSE"## licenses"## log # 运⾏⽇志"## NOTICE"## opt...
2020-03-05 21:38:20 222
原创 Flink学习-day1
Apache Flink概述Flink是构建在数据流之上的有状态计算的流计算框架,通常被⼈们理解为是 第三代 ⼤数据分析⽅案。① 第⼀代 - Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独⽴计算引擎,使⽤难度⼤② 第⼆代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统⼀计算引...
2020-03-05 21:27:27 148
原创 Spark流计算-day2
Spark流计算TransformationsDStream转换与RDD的转换类似,将DStream转换成新的DStream.DStream常⻅的许多算⼦使⽤和SparkRDD保持⼀致。map算⼦//1,zhangsan,truelines.map(line=> line.split(",")) .map(words=>(words(0).toInt,words(1),wo...
2020-03-01 23:43:04 224
原创 Spark流计算-day1
Spark流计算概述⼀般流式计算会与批量计算相⽐较。在流式计算模型中,输⼊是持续的,可以认为在时间上是⽆界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是⽆界的。流式计算⼀般对实时性要求较⾼,同时⼀般是先定义⽬标计算,然后数据到来之后将计算逻辑应⽤于数据。同时为了提⾼计算效率,往往尽可能采⽤增量计算代替全量计算。批量处理模型中,⼀般先有全量数据集...
2020-03-01 20:02:25 214
原创 学习Hbase第二天
Shell命令基本命令1、打开Hbase Shell[root@CentOS hbase-1.2.4]# ./bin/hbase shell2、获取帮助hbase(main):004:0> helphbase(main):005:0> help ‘get’3、查看服务器状态hbase(main):002:0> status1 active master, 0 ...
2020-02-29 12:20:07 141
原创 Spark SQL
Spark SQL 编程指南① Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互,例如Dataset API和SQL等,这两种API可以混合使⽤。Spark SQL的...
2020-02-24 21:58:20 170
原创 Spark学习-day 2
RDD OperationsRDD⽀持两种类型的操作:transformations-转换 ,将⼀个已经存在的RDD转换为⼀个新的RDD,另外⼀种称为actions-动作 ,动作算⼦⼀般在执⾏结束以后,会将结果返回给Driver。在Spark中所有的transformations 都是lazy的,所有转换算⼦并不会⽴即执⾏,它们仅仅是记录对当前RDD的转换逻辑。仅当Actions 算⼦要求将结果...
2020-02-24 19:24:20 124
原创 Spark学习-day 1
Spark Shell①./bin/spark-shell --master yarn --deploy-mode client --executor-cores4 --num-executors 3②./bin/spark-shell --master spark://zly:7077 --total-executor-cores 6
2020-02-19 00:06:55 171
原创 Spark安装
环境搭建1)Spark On YarnHadoop环境① 设置CentOS进程数和⽂件数(可选)vim /etc/security/limits.conf* soft nofile 204800* hard nofile 204800* soft nproc 204800* hard nproc 204800优化linux性能,修改这个最⼤值,重启CentOS⽣效② 配置主...
2020-02-17 22:46:04 221
原创 Scala学习(一)
概述Scala⽤⼀种简洁的⾼级语⾔将 ⾯向对象 和 函数式编程 结合在⼀起。传统业务开发- 领域模型设计(⾯向对象开发); ⼤数据开发 - 数据集计算模型-(函数式编程)。 函数编程 强调的是程序对数据的运⾏算能⼒。在 ⾯向对象计算数据 的时候采取代码不动移动数据.在 函数式编程计算 的时候数据不动代码动。Scala是⼀⻔多范式的编程语⾔,同时⽀持⾯向对象和⾯向函数编程⻛格。它以⼀种优雅的⽅式...
2020-02-11 08:44:23 386
原创 Scala安装
安装Windows版本安装下载连接:https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.msi① 点击scala-2.11.12.msi,一直下一步就行。② 配置Scala的环境变量SCALA_HOME变量SCALA_HOME=C:\Program Files (x86)\scalaPATH=C:\Program Fi...
2020-02-10 10:55:36 100
原创 sqoop的学习
概述Apache Sqoop(TM)是⼀种旨在在Apache Hadoop和结构化数据存储(例如关系数据库)之间⾼效传输批量数据的⼯具。通过内嵌的MapReduce程序实现关系型数据库和HDFS、Hbase、Hive等数据的倒⼊导出。sqoop-importImport⼯具将单个表从RDBMS导⼊到HDFS。表中的每⼀⾏在HDFS中均表示为单独的记录。记录可以存储为⽂本⽂件(每⾏⼀个记录)...
2020-02-09 20:50:48 150
原创 Sqoop安装
安装① 访问sqoop的⽹址http://sqoop.apache.org/,选择相应的sqoop版本下载,本案例选择下载的是 1.4.7 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,下载完相应的⼯具包后,解压Sqoop。tar -zxvf s...
2020-02-09 12:11:55 97
原创 Flume-分布式日志采集
一.Flume的概述Flume是什么1.flume能做什么Flume是一种分布式(各司其职),可靠且可用的服务,用于有效地收集,聚合(比如某一个应用搭建集群,在做数据分析的时候,将集群中的数据汇总在一起)和移动大量日志数据。Flume构建在日志流之上一个简单灵活的架构。2.flume的特性①它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性。使用Flume这套架构实现对日志...
2020-02-06 00:37:07 718
原创 Hadoop的一些基本概念和原理
HadoopHadoop的核心是HDFS和MapReduce。一.HDFS1.Hdfs是Hadoop的分布式文件存储系统,它的核心是解决大数据的存储问题。2.基本概念Namenode:是整个HDFS集群的总入口,存储这HDFS集群的文件元数据信息(如client上传的文件名,副本数,快数等相关信息)。DataNode:是真正用来负责存储数据的节点,一个DataNode就是一个真实的物理...
2020-02-04 23:36:09 379
原创 基于hadoop的Hbase安装
Hbase安装1.确保hdfs正常启动,在之前的文章中已将安装好,只不过没有安装Zookeeper2.安装Zookeeper①将压缩包解压到指定文件tar -zxvf zookeeper-3.4.12.tar.gz -C /usr/soft/ ②由于没有zoo.cfg配置文件,所以复制一份新的cp /usr/soft/zookeeper-3.4.12/conf/zoo_sampl...
2020-02-04 14:28:09 421
原创 虚拟机安装Centos7并安装jdk搭建hdfs和yarn环境
一.安装Centos71.点击自定义安装2.点击下一步3.选择稍后安装操作系统,点击下一步4.选择操作系统为linux和版本为Centos75.设置虚拟机名称和位置,位置后最好自己命名一个文件夹名称6.直接下一步7.使用网络地址转换8.直接下一步9.选择创建新的虚拟磁盘,注意不要点击立即分配磁盘空间10.直接下一步,然后完成11.完成后先不要着急启动,需要先进行设置,点击CD/...
2020-02-03 21:08:53 535
转载 学习Hbase第一天
学习Hbase第一天Hbase概述列存储Hbase概述Hbase是一个基于Hadoop的分布式,可扩展,巨大数据仓库,当用户需要对海量数据进行实时(时效性)随机(单条记录级别数据)读写,用户可以使用Hbase,设计目标是能够持有一张巨大的表,该表的规模能达到数十亿行×数百万列,并且可以运行在商用的硬件集群之上.Hbase是一个开源的,分布式的,版本化的,非关系型的数据库.该设计仿照了Goole...
2020-01-06 22:26:10 153
空空如也
怎么使用递归处理路由
2023-11-15
antd我想修改Message组件提示的位置
2023-10-11
为什么function里的i是for循环结束的值啊!
2023-06-16
使用js进行多属性运动遇到问题
2023-06-07
今天学习手机端遇到的问题
2023-04-13
为什么不能直接在第二行标签修改span标签的颜色
2023-04-10
关于text-indent问题
2023-04-10
关于text-indent位置偏移bug
2023-04-09
有没有大神顺便过来瞅瞅的
2019-11-17
关于ajax传对象的问题,爆了一个400,求大神解决一下
2019-11-16
深度学习中股票预测代码求解
2019-06-12
初学深度学习,在实现股票预测,有没有大佬可以帮忙解释一下这段代码是什么意思,麻烦具体点
2019-06-12
关于框框的制作方法,求指导
2016-12-13
div css大神看一看求回答在线等
2016-12-13
麻烦问一下制作html网页时,什么时候应用div的嵌套什么时候单独用div
2016-12-07
关于div嵌套问题,大神帮忙看一下,给一个好友位
2016-12-06
div css求大神帮忙,啊啊啊啊啊
2016-12-05
关于div怎么加边框文图
2016-12-03
TA创建的收藏夹 TA关注的收藏夹
TA关注的人