![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 87
这些是18年时候学习记录的了,现在不知迭代多少个版本了,有些会有差入,注意区分
学不下了
这个作者很懒,什么都没留下…
展开
-
Yarn学习笔记
(2) 针对Hadoop1.0中的MapReduce在扩展性和多框架支持等方面的不足,它将JobTracker中的资源管理和作业控制分开,分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现,即引入了资源管理框架Yarn;多种计算框架运行);若挂掉,RM负责重启,其实RM上有一个RMApplicationMaster,是AM的AM,上面保存已经完成的task,若重启,无需重新运行已经完成的task。原创 2023-05-28 11:37:17 · 1423 阅读 · 0 评论 -
HDFS学习笔记
对于每一个数据块,NameNode 节点返回保存数据块的数据节点的地址。当Active NameNode的命名空间发生变化的时候,它会把这个变化通知所有JN,有的JN收到信息,有的JN是没有收到信息的,如果大部分JN进程接到信息,就认为这个事件是可信的,如果少数的JN接到信息,就认为这个信息是错误的,是屏蔽的,对于可信的信息,standby Namenode才会去同步过来,通过JN这种方式,才能保证Standby Namenode和Active Namenode之间有效信息的一个同步。原创 2023-05-28 11:35:54 · 4030 阅读 · 1 评论 -
Flume实践
a1.sinks.k1.hdfs.path =hdfs://master:9000/flume/%Y-%m-%d/%H%M #接收地址。a1.sources.r1.bind = slave1 #slave2配置也是一样的,只是这里更改为slave2。a1.sources = r1 #slave1的agent-name是a1,slave2的是a2。a1.sources.r1.selector.type = replicating #复制。原创 2023-05-28 11:34:47 · 989 阅读 · 0 评论 -
Flume学习笔记
(4) 问题:Multiplexing需要判断header里指定key的值来决定分发到某个具体的channel,如果demo和demo2同时运行在同一个服务器上,如果在不同的服务器上运行,可以在source1上加上一个host拦截器,这样可以通过header中的host来判断event该分发给哪个channel,而这里是在同一个服务器上,由于host是是区分不出日志来源的,必须想办法在header中添加一个key来区分日志的来源。也即在日志进入source之前,对日志进行一些包装、清新过滤等等动作;原创 2023-05-28 11:31:21 · 1075 阅读 · 0 评论 -
Hbase学习笔记
(2) 从这个过程中,可以发现客户会缓存这些位置信息,然而第二步它只是缓存当前RowKey对应的HRegion的位置,因而如果下一个要查的Rowkey不在同一个HRegion中,则需要继续查询META所在的HRegion,然而随着时间的推移,客户端缓存的位置信息越来越多,以至于不需要再次查找hbase:meta Table的信息,除非某个HRegion因为宕机或Split被移动,此时需要重新查询并且更新缓存。当table中的行越来越多,就会有更多的Hregion。对上层业务有比较大的影响。原创 2023-05-28 11:31:15 · 1187 阅读 · 0 评论 -
Hbase操作
两个列族,一个是meta_info,一个是user_action,versions=>1相当于是版本号,可以修改,修改之后旧的一样保存,IN_MEMORY有turn和false两个值,turn的话就是表的Column Family所有信息是保存到内存中的,false就是保存到hdfs上。刚才已经给mata_info添加数据了,user_action还没有数据的,写数据的时候,是先写到内存的,达到128M之后再溢出到磁盘,可以使用flush命名强制split出磁盘。批量读:scan 'item_table'原创 2023-05-27 10:44:11 · 1990 阅读 · 0 评论 -
Zookeeper学习笔记
Sever1与zookeeper连接,建立临时节点node1,node1会存储server1的元数据,包括IP地址,其它网络信息等,这个时候就知道了node1和server1的映射关系,当然这个架构了不止一个server1,所以也就不止一组node和server的映射关系,流量分发器就可以通过这个映射关系,知道server1的状态,从而判定给不给它流量。(1) Zookeeper是分布式锁服务,为分布式系统提供名字服务器,分布式同步,组服务的开源高效可靠的协同工作,对集群的稳定性起到了关键作用。原创 2023-05-27 10:43:37 · 1998 阅读 · 0 评论 -
Kafka学习笔记
(16)副本数据写成功:message真正存储还是要存储到磁盘上的,数据写入到leader后,从节点以异步的方式主动到leader拉取数据,数据到达从服务器后并不是立马写磁盘的,立即往磁盘写的话会消耗很多时间,时效性不高,而是先存储在内存中,写完内存后就返回ack给leader,说明副本数据写成功,之后再自己内部落地数据到磁盘,这样既高效也保证了数据可靠性。(15)kafka动态的维护了一组in-sync(ISR)的副本,表示已追上了leader,只有处于该状态的成员组才是能被选择为leader。原创 2023-05-27 10:41:42 · 1415 阅读 · 0 评论 -
Storm学习笔记
Apache Storm是一个分布式实时流式大数据处理框架。(1) Storm是在线处理数据方式,Mapreduce/spark是离线处理数据方式。(2) Mapreduce数据处理特点海量数据处理:G、T、P级都能处理全量数据集同时处理:有多少输入数据都一次性同时处理批处理方式:大数据输入、大批数据输出吞吐能力强(3) 其他数据处理类型:(mapredece满足不了的)实时数据分析:实时报表动态展现、数据流量波动状况、反馈系统(有输入立马又输出,机器学习迭代),比如:炒股票、数据报表。原创 2023-05-27 10:42:16 · 832 阅读 · 0 评论 -
Sqoop学习笔记
在 Sqoop 中可以使用 sqoop import -D property.name=property.value 这样的方式加入执行任务的参数,多个参数用空格隔开。该过程分为两步,第一步将数据导入到 HDFS,默认的临时目录是/user/admin/表名,第二步将导入到 HDFS的数据迁移到 Hive 仓库。在使用query的时候,后面必须加条件,在任务产生多个map的时候,用条件表示从哪个map开始读取数据。Mysql数据导入到hdfs,默认的列分隔是“,”,默认的行分隔符是“\n”原创 2023-05-27 10:38:42 · 1622 阅读 · 0 评论 -
Hive优化
按照JOIN顺序中的最后一个表应该尽量是大表,因为JOIN前一阶段生成的数据会存在于Reducer的buffer中,通过stream最后面的表,直接从Reducer的buffer中读取已经缓冲的中间结果数据(这个中间结果数据可能是JOIN顺序中,前面表连接的结果的Key,数据量相对较小,内存开销就小),这样,与后面的大表进行连接时,只需要从buffer中读取缓存的Key,与大表中的指定Key进行连接,速度会更快,也可能避免内存缓冲区溢出。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。原创 2023-05-27 10:36:40 · 1112 阅读 · 0 评论 -
Spark Streaming
离散流:连续不断流入的数据,按时间处理,比如,连续一分钟内收集的数据作为一个单元,单元之间是相互独立的,就是把连续不断的数据流,切出不同的离散分片。把数据进行离散化处理;DStream是Spark Streaming特有的数据类型,代表一系列连续的RDD,可以看做一组RDDs,即RDD的一个序列,相当于是在RDD的基础上做了对时间的依赖。小方块代表一个数据,虚线与虚线之间代表数据窗口,比如说一分钟,五分钟等,在时间创建内,把小数据积累起来,构成大的批量数据文件,多个小数据块DAG汇聚成的大数据流DAG;原创 2023-05-27 10:30:35 · 1400 阅读 · 0 评论 -
MapReduce理论笔记
一 介绍MapReduce是一个用于处理海量数据的分布式计算框架这个框架解决了:(1) 数据分布式存储(2) 作用调度(3) 容错(4) 机器间通信等复杂问题 MapReduce只负责数据计算,不负责存储,数据是存储在HDFS上,因为HDFS:系统可靠、可扩展、可并发处理 MapReduce 采用多进程的并发方式,优点:多进程的并发方式这种模型便于每个任务占...原创 2018-08-16 10:51:40 · 903 阅读 · 0 评论 -
HDFS2.0理论笔记
HDFS2.0相对HDFS1.0有几个新特性1 NameNode HA在Hadoop1.0中NameNode在整个HDFS中只有一个,存在单点故障风险,一旦NameNode挂掉,整个集群无法使用,虽然有SNN,但还是不可靠;在Hadoop2.0中,就针对NameNode提供了一个高可用方案。1.0简图2.0简图HDFS的高可用性将通过在同一个集群中运行两个NameNod...原创 2018-08-16 02:07:08 · 1799 阅读 · 0 评论 -
HDFS1.0理论笔记
1 什么是HDFS?HDFS的全称是:Hadoop Distribute Files System,分布式文件系统在整个Hadoop技术体系中,HDFS提供了数据分布式存储的底层技术支持。HDFS 由三个组件构成:NameNode(NN)、DataNode(DN)、SecondaryNameNode(SNN)NameNode是主节点,也叫Master(进程),一个hadoop集群只...原创 2018-08-16 01:56:32 · 1075 阅读 · 0 评论 -
HADOOP认识
1、hadoop是什么?Hadoop是一个由Apache基金会所开发的分布式系统基础架构。(有不同组件)用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件...原创 2018-08-14 17:30:39 · 561 阅读 · 0 评论 -
hadoop、zookeeper、storm、hbase安装
以下环境全部基于此系统:[root@localhost ~]# cat /etc/redhat-releaseCentOS Linux release 7.5.1804 (Core) 安装软件及对应版本jdk-8u172-linux-x64.tar.gzHadoop-2.8.4Zookeeper-3.4.5apache-storm-1.0.6.tar.gzhba...原创 2018-08-14 15:34:24 · 894 阅读 · 0 评论 -
Mapreduce--wordcount
Mapreduce实现第一个wordcount1、数据[root@master mapreduce_wordcount_python]# ls1.data map_new.py red_new.py run.sh The_Man_of_Property.txt数据是一篇文章[root@master mapreduce_wordcount_python]# head T...原创 2018-08-09 10:18:25 · 309 阅读 · 0 评论