BigDataOutline
大数据生态圈 ALL
睡覺了
我现在能做的,便是以一段拙劣的文字来祭奠我那段流逝的岁月
展开
-
使用Spark Streaming对接kafka 写入 mysql 并查询 插入(实时更新 并 覆盖)
以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论部分数据:17 0 2018/10/20 21:08 许向暖呐:滚 0 0 5670089757 许向暖呐 0 154004088018 0 2018/10/20 21:08 曹大老实人:你知道我在网吧看比赛我周围的人一直说rng回家的时候我心里多难受吗 0 0 6384972437 曹大老实人...原创 2020-04-23 18:48:38 · 7248 阅读 · 3 评论 -
Spark-streaming-kafka
目录说明核心概念图解pom.xmlAPI创建topic启动生产者代码演示说明spark-streaming-kafka-0-10版本中,API有一定的变化,操作更加灵活,开发中使用核心概念图解pom.xml <!-- 指定仓库位置,依次为aliyun、cloudera和jboss仓库 --> <reposi...原创 2020-04-17 11:05:39 · 9430 阅读 · 6 评论 -
BIgData 命令操作
查看ps -ef | grep 名称 hive Zookeeper 开启与关闭全部 开启zkstart-all.sh 逐个节点关闭zkServer.sh stop时间同步 联网ntpdate ntp4.aliyun.com启动 HDFS启动start-all.sh关闭 sto...原创 2020-04-14 16:34:35 · 8541 阅读 · 6 评论 -
Review Hbase记忆
1.HBase的基本介绍 a.Hbase是建立在hdfs之上的一个数据库,b.不支持join等SQL复杂操作c.支持的数据类型:byte[],d.依靠横向扩展,一个表可以有上十亿行,上百万列。e.面向列(族)的存储和权限控制f.对于为空(null)的列,并不占用存储空间,是一个稀疏表。2.HBASE的适用场景 海量数据、精确查询、快速返回海量数据:指...原创 2020-04-12 11:12:54 · 7865 阅读 · 1 评论 -
Review HBase
hbase 的安装部署1、软件包上传解压2、 配置hbase.env.sh配置java_home使用外部zookeeper(自己独立安装的zookeeper)3、配置 hbase-site.xml见讲义hbase.zookeeper.property.dataDir必须是zookeeper存储数据的路径4、修改regionservers5、创建backup-masters6、...原创 2020-04-12 11:13:10 · 8669 阅读 · 7 评论 -
Review impala
impala的安装部署1、软件包的上传解压安装包大于4G,所以需要另行上传。每个节点需要优先安装nc yum install -y nc安装impala的节点至少需要有12G的剩余空间(5.1G 安装包,5.1G解压后的包)2、制作网络源将安装包解压后,配置成yum源3、安装impala在主节点(node03)安装yum install -y impala impala...原创 2020-04-12 11:13:22 · 7955 阅读 · 1 评论 -
Review Flume
flume:负责数据的收集,采集传输,并将数据存储在大数据生态系统。数据采集:文件、文件夹、数据包,kafka.数据存储:HDFS,hbase, hive, kafkaXXX收集,采集,传输例如:扫码枪,打卡机,收割机,吸尘器Flume内部模块1、Source :与数据源对接,用于数据的收集,采集。2、Channel: 数据的传输(一个flumeAgent内部)3、Si...原创 2020-04-11 08:36:34 · 8401 阅读 · 0 评论 -
Review Hive 知识点
>## 什么是Hive?>>Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。>>## Hive的意义(最初研发的原因)?...原创 2020-04-11 08:29:10 · 9391 阅读 · 3 评论 -
Review MapReduce
计算框架是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。MapReduce计算框架 并行计算框架一个大的任务拆分成多个小任务,将多个小任务分发到多个节点上。每个节点同时执行计算Hadoop为什么比传统技术方案快1、分布式存储2、分布式并行计算3、节点横向扩展4、移动程序到数据...原创 2020-04-11 08:23:32 · 7745 阅读 · 1 评论 -
Review HiveSQL笔试
如下的用户访问数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4要求使...原创 2020-04-11 08:10:12 · 8256 阅读 · 0 评论 -
Review Hive 概念、意义、特性、缺点、内部组成架构、安装部署、访问方式、数据库的基本操作、数据表基本操作、自定义函数、UDF、修改表信息、表数据加载、数据导出等等
Hive基本概念是一个基于hadoop的数据仓库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能。Hive的意义是什么背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡。意义(目的):降低程序员使用hadoop的难度。降低学习成本。Hive可以对数据进行存储与计算存储使用HDFS存储计算使用MapReduce进行计算。Hive的...原创 2020-04-11 08:07:51 · 10001 阅读 · 5 评论 -
Review SecondaryNamenode工作原理
前提:不使用SNN,日志文件会很大,日志大会导致集群恢复到上次关机前的状态花费很长时间,这个时候集群处于 安全模式,集群不可用。长时间处于安全模式。目标:加快集群二次启动的速度。(减少集群二次启动的时间)SecondaryNamenode周期性复制NameNode的FSIMAGE 和edits到本机(SecondaryNamenode本机),将两个 文件进行合并,最终生成全新的Fsimag...原创 2020-04-11 07:40:06 · 7959 阅读 · 0 评论 -
Review Datagrip连接Hive
jdbc:hive2://192.168.100.201:10000/ 下载安装DataGrip并启用 T3ACKYHDVF-eyJsaWNlbnNlSWQiOiJUM0FDS1lIRFZGIiwibGljZW5zZWVOYW1lIjoi5bCP6bifIOeoi+W6j+WRmCIsImFzc2lnbmVlTmFtZSI6IiIsImFzc2lnbmVlRW1haWwiOi...原创 2020-04-11 07:38:05 · 8316 阅读 · 0 评论 -
Review LInux单选
1. 制作本地yum源,本地仓库源的文件写在哪个目录(A ) A、/etc/yum.repos.d/B、/usr/devC、/mnt/cdromD、/etc/sysconfig/network-scripts/2.linux系统中,退出当前用户的命令是 (A ) A、exitB、Ctrl + cC、Ctrl + zD、q3....原创 2020-04-11 07:28:23 · 8274 阅读 · 0 评论 -
Review CAP定律分布式系统
典型的分布式系统应用搜索引擎,索引整个互联网(谷歌,百度)新闻网站(新浪,网易,搜狐)电子邮件聊天通信(腾讯)博客,微博,社会关系网络有的这些互联网应用都有一个突出的特点:规模极其庞大典型的分布式系统所面临的 问题以及处理方法要保证一个分布式系统能够正常地运行是十分困难的,因此,有一个原则就是,如果集中的方式能够解决问题,千万不要使用分布式的方式去解决。...原创 2020-04-11 07:24:44 · 8587 阅读 · 7 评论 -
Review HDFS特性、缺点、高级命令、安全模式
HDFS 特性1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别数据。2、高容错性:节点丢失,系统依然可用,数据保存多个副本,副本丢失后自动恢复。可构建在廉价(与小型机大型机比)的机器上,实现线性扩展(随着节点数量的增加,集群的存储能力,计算能力随之增加)。3、大文件存储:DFS采用数据块的方式存储数据,将一个大文件切分成多个小文件,分布存储。HDFS缺点:...原创 2020-04-11 07:40:43 · 7773 阅读 · 0 评论 -
Review HDFS数据完整性
HDFS数据完整性数据在写入之后进行校验和的计算,DataNode周期性进行校验和计算,将计算结果与第一次的结果进行对比。若相同表示无数据丢失,若不相同表示数据有丢失,丢失进行数据恢复。数据读取之前对数据进行校验,与第一次的结果进行对比。若相同表示数据没有丢失,可以读取。若不相同表示数据有所丢失。到其他副本读取。...原创 2020-04-12 11:13:41 · 7999 阅读 · 1 评论 -
Review HDFS数据 读写 流程
HDFS数据读取流程1、客户端通过调用FileSystem对象的open()来读取希望打开的文件。2、 Client向NameNode发起RPC请求,来确定请求文件block所在的位置;3、 NameNode会视情况返回文件的部分或者全部block列表,对于每个block,NameNode 都会返回含有该 block副本的 DataNode 地址; 这些返回的 DN 地址,会按照集群...原创 2020-04-10 22:52:26 · 8059 阅读 · 0 评论 -
Review HDFS 副本存放机制
HDFS 副本存放机制第一份数据来源于客户端第二份存放的位置是与第一个副本在相同机架上,且不在同一个节点,按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点存放第三个副本的存放位置是与第一第二份数据副本不在同一个机架上,且逻辑与存放副本1和2的机架距离最近的机上按照一定的规则(cpu 内存 IO是用率,和硬盘剩余容量)找到一个节点进行存放图解:...原创 2020-04-10 22:50:11 · 8216 阅读 · 0 评论 -
Review Hadoop 的组成部分
hadoop 的组成部分HDFS管理者:NameNode作用:负责管理,管理集群内各个节点。负责管理整个文件系统的元数据(指的是数据的存放位置或存放路径)或名字空间辅助管理者:SecondaryNameNode作用:责辅助NameNode管理工作。工作者:DataNode作用:负责工作,进行读写数据。 周期向NameNode汇报。负责管理用户的文件数据块(一个大的数...原创 2020-04-12 11:13:53 · 8628 阅读 · 2 评论 -
Review HDFS 文件系统的容量
HDFS 文件系统的容量 理解: 将多个节点的容量汇总到一起拼接成一个大的文件系统,在一个节点上传数据,在其他的节点上都能够访问使用。图解 :...原创 2020-04-12 11:14:03 · 9436 阅读 · 0 评论 -
Review 查看历史执行了哪些任务(所有任务)以及详细日志
查看历史执行了哪些任务(所有任务)以及详细日志登录到resourceManager所在的节点IP +8088http://192.168.100.201:8088需要查看任务的详细信息需要独立开启一个服务JobHistoryServer开启服务 ./mr-jobhistory-daemon.sh start historyserver查看 http://192.168.100...原创 2020-04-10 22:44:32 · 8246 阅读 · 1 评论 -
Review 大数据技术为什么快?
大数据技术为什么快1、传统的时纵向扩展服务器数量不发生变化,配置越来越高(发生变化)大数据横向扩展配置不发生变化,服务器数量越来越多(发生变化)2 传统的方式资源(cpu/内存/硬盘)集中大数据方式资源(cpu/内存/硬盘)分布(前提:同等配置的前提下)3 传统数据备份方式单份备份大数据数据备份方式多分备份(数据复制,默认三个副本)4 传统的计算模型是移动数据到程序端大数据...原创 2020-04-10 22:35:02 · 8063 阅读 · 0 评论 -
Review 大数据集群安装部署
大数据集群准备工作准备工作1、 关闭防火墙/etc/init.d/iptables stopchkconfig iptables off2、 关闭selinux3、修改主机名4、ssh无密码拷贝数据特别说明(在主节点无密码访问到从节点)ssh-keygenssh-copy-id 192.168.100.201ssh-copy-id 192.168.100.202ssh-...原创 2020-04-10 22:34:48 · 8095 阅读 · 1 评论 -
Review 什么是大数据?
什么是大数据?字面意思理解:大量的数据,海量的数据数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据有什么特点?海量化数据量大(多)多样化结构化数据,半结构化数据,和非结构化数据快速化数据的增长速度快高价值海量数据价值高大数据能做什么?1、海量数据快速查询2、海量数据的存储(数据量大,单个大文件)3、海量数据的快速计算(与传统的工...原创 2020-04-10 22:28:08 · 8473 阅读 · 0 评论 -
BigDataOutline(大数据大纲)
这章是一个大数据的大概 概述,缺少的章节会在后面慢慢补充,感兴趣的同学可以在下面评论留言。 什么是大数据?字面意思理解:大量的数据,海量的数据 数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据大数据特征:1)大量化(Volume):存储量大,增量大 TB->PB2)多样化(Variety...原创 2020-04-10 22:22:04 · 7638 阅读 · 1 评论