大数据笔记
文章平均质量分 67
从入门到放弃的大数据完整笔记
热忱 ㅤ ㅤ
一只大数据的小白 每天都要学习呀
展开
-
Sqoop 史上最全面的大数据学习(十二)
一、概述Sqoop是一款开源的数据导入导出工具,可以将传统的关系型数据库导出至HDFS,也可以将HDFS中的数据导出至关系型数据库。官网: http://sqoop.apache.org/原理:在Hadoop生态体系中,计算基本依赖于MR,那么Sqoop也是如此,Sqoop就是将Sqoop语句翻译成MR程序,来实现一个数据导入和导出的操作。那就不难理解到Sqoop就是一个对于InpuFormat和OutputFormat进行特殊定制的MR程序。二、Sqoop安装2.1 下载官方下载地址:htt原创 2021-09-07 18:33:21 · 310 阅读 · 0 评论 -
元数据管理-技术元数据解决方案
概念元数据是描述企业数据相关的数据,指在IT系统建设过程中所产生的有关数据定义,目标定义,转换规则等相关的关键数据,包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是数仓建设环节中不可缺少的一部分(尤其是在数据治理环节),是数据管理、数据内容、数据应用的基础。通过元数据可以打通数据源、数据仓库、数据应用、记录了数据流向的完整链路。它可以说是企业的数据地图,可以直接反映了企业中有什么样的数据,这些数据是如何存放的,以及数据之间的关系是如何的。分类参考Kimball的数仓模型理论原创 2021-02-22 14:13:53 · 1196 阅读 · 0 评论 -
Kafka 史上最全面的大数据学习(十一) 集成SpringBoot 冲
10.1之前为了自己早点放假就有则加班,无责也加班,假期8天过的挺开心的,带爸妈去了拉萨,去了内蒙。开开心心。我来水文了。七、集成SpringBoot依赖pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 htt原创 2020-10-09 09:54:35 · 184 阅读 · 1 评论 -
Kafka 史上最全面的大数据学习(十一)javaAPI topic操作
五、Java API创建Topic@Test public void create() { Properties properties = new Properties(); properties.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "HadoopNode01:9092,HadoopNode02:9092,HadoopNode03:9092"); AdminClient adminC原创 2020-09-11 17:38:59 · 357 阅读 · 1 评论 -
Kafka 史上最全面的大数据学习(十一) 这是重点 重点 Kafka的安装及一些shell操作 不会只有我没过七夕吧
三、Kafka 安装单节点模式[root@HadoopNode00 ~]# mkdir /home/kafka[root@HadoopNode00 ~]# tar -zxvf kafka_2.11-0.11.0.0.tgz -C /home/kafka/# /home/kafka/kafka_2.11-0.11.0.0/config/server.properties# Switch to enable topic deletion or not, default value is false原创 2020-08-26 11:15:11 · 152 阅读 · 0 评论 -
Kafka 史上最全面的大数据学习(十一) Kafka组件与角色 冲冲冲
二、Kafka组件与角色http://kafka.apache.org/Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies.kafka组件Broker每个Kafka Server称之为一个B原创 2020-08-21 10:08:38 · 198 阅读 · 0 评论 -
Kafka 史上最全面的大数据学习(十一) Kafka的概述 重点重点
一、概述消息队列消息的概念消息的是系统间通信的载体,是分布式应用不可获缺的一部分。目前系统间发送消息有两种种类。同步消息即使消息:打电话、表达提交、WebService、Dubbo|SpringCloud要求消息发送方和接受放必须同时在线,一般都需要和接收方建立会话。异步消息发送方不理会对方是否在线,一般不需要和接收方建立会话,在接受方上线后,一般会获取发送方发送的消息。显而易见,可以看出消息队列就是使用的异步消息的模型。消息队列FIFO 先进先出使用场景异步消息系统间解耦原创 2020-08-08 12:07:09 · 132 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(六)Flume完结篇
一、概述日志分类(1)业务操作日志一般存储在RDBMS上,多用于出现在后台管理系统 记录相关的操作。(数据量不大)(2)系统运行日志要视具体的系统体现而看。指的是采集系统运行日志,进行系统监控。(3)用户行为日志采集用户行为点击、正常浏览、加入购物车、加入收藏、下单Flume 概述组件功能Agent使用JVM 运行Flume。每台机器运行一个agent,但是可以在一个agent中包含多个source,channel以及sink。Source从Client收原创 2020-08-07 09:01:47 · 143 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(六)fulme的一些其他案列
五、其它案例多级agent串联一级agenta1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = netcata1.sources.r1.bind = HadoopNode00a1.sources.r1.port = 6666a1.channels.c1.type = memorya1.sinks.k1.type = avroa1.sinks.k1.hostname = HadoopNode00a1原创 2020-08-06 22:55:38 · 174 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(五) Java API 多写多练才行呢
Java API依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-sdk</artifactId> <version>1.9.0</version></dependency> 代码public class App { public static void main(Strin原创 2020-08-05 11:33:47 · 494 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(四)来了解一下flume的一些基础案例吧
这几天忙着项目上线,终于忙的差不多了,看着自己的劳动成果其实也挺开心的,加油加油!!! ???? ???? ????基础案例netcat-memory-logger# agent = a1 a1下有一个source叫r1a1.sources = r1# agent = a1 a1下有一个chanel叫c1a1.channels = c1# agent = a1 a1下有一个sink叫k1a1.sinks = k1# sourcea1.sources.r1.type =原创 2020-07-29 17:03:09 · 171 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(三)这次应该知道flume的组件和启动命令了吧
四、使用4.1 常规组件罗列sourceAvro SourceExec SourceNetCat TCP SourceTaildir SourceKafka SourceSpooling Directory SourcesinkHDFS SinkAvro SinkLogger SinkFile Roll SinkKafka SinkchannelMemory ChannelJDBC ChannelKafka ChannelFile Ch原创 2020-07-24 09:00:31 · 279 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(二)看完这篇小学生都会安装配置flume了
二、Flume 安装下载安装必须有Java 环境 推荐JDK1.8Flume安装成功 可以不用配置环境变量 (方便的使用的话推荐配置)[root@HadoopNode00 ~]# mkdir /home/flume[root@HadoopNode00 ~]# tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/flume/[root@HadoopNode00 bin]# ./flume-ng version # 正确显示如下日志就原创 2020-07-23 09:02:28 · 185 阅读 · 0 评论 -
Flume 史上最全面的大数据学习第十篇(一) 别再说不知道flume是什么了
昨天没有增加小粉丝,我反思了一下自己,是不是我写的东西太过枯燥了呀!挺难受的!算了还是不说了,每天都是美好的一天,给自己一个微笑吧 ???? 加油!一、概述日志分类(1)业务操作日志一般存储在RDBMS上,多用于出现在后台管理系统 记录相关的操作。(数据量不大)(2)系统运行日志要视具体的系统体现而看。指的是采集系统运行日志,进行系统监控。(3)用户行为日志采集用户行为点击、正常浏览、加入购物车、加入收藏、下单Flume 概述组件功能Agent使用JVM 运原创 2020-07-22 09:26:05 · 246 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(六)完结篇 Hive On HBase
一、概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一原创 2020-07-21 09:20:42 · 245 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(五) Hive 自定义函数 每一天都是美好的一天!
六、Hive 自定义函数在Hive当中又系统自带的函数,可以通过show functions;语句查询系统现在已经存在函数。desc function upper;显示自带函数用法,desc function extended upper;详细显示自带函数用法。其系统中已经存在很多函数,但是这些往往不能满足生产需求,所以Hive保留了相关接口,以便用户日后去自定义函数去拓展相关的功能。在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数叫做UDF(用户自定义函数)。UDF分.原创 2020-07-20 09:04:11 · 465 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(四) Hive Sql 操作 今天的你也要加油啊
五、Hive SQL 操作5.1 Select 语句使用正则表达式指定列create table logs( uuid string, userid string , fromUrl string , dateString string, timeString string, ipAddress string, browserName string, pcSystemNameOrmobileBrandName string , .原创 2020-07-19 09:40:10 · 348 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(三) Hive表分类
四、表分类4.1 管理表(内部表)内部表与数据库中的Table在概念上是类似的,每一个内部Table在Hive中都有一个相应目录存储数据,所有的Table数据(不包括External Table)都保存在这个目录中。删除表时,元数据与数据都会被删除。4.2 外部表在创建表的时候可以指定external关键字创建外部表,外部表对应的文件存储在location指定的目录下,向该目录添加新文件的同时,该表也会读取到该文件(当然文件格式必须跟表定义的一致),删除外部表的同时并不会删除location指定目.原创 2020-07-18 08:30:19 · 221 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(二) Hive表操作 --全面发展中
三、Hive表操作3.1 Hive 数据类型数据类型(primitive ,array,map,struct)primitive (原始类型) 整数:TINYINT SMALLINT INT BIGINT 布尔:BOOLEAN 小数:FLOAT DOUBLE 字符:STRING CHAR VARCHAR 二进制:BINARY 时间类型:TIMESTAMP DATEarray(数组):ARRAY<data_type>map(key-value类型):MAP<KEY-.原创 2020-07-17 09:01:57 · 602 阅读 · 0 评论 -
Hive 史上最全面的大数据学习第九篇(一) 概述 & 安装方式详解
一、概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是.原创 2020-07-16 08:59:52 · 306 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase完结篇 Hbase 集群搭建以及相关操作
HBase一、概述HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gdBwJVtS-1594544562360)(assets/1572849284291.png)]1.1 CAPCAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition原创 2020-07-15 20:20:42 · 236 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase(五) Hbase 的读写流程(面试可能会问到)
七、HBase 读写流程读流程//后续会把图片补上HBASE读数据流程1 客户端先访问ZK 从meta表读取Region的位置2 根据相关信息获取到Regiog所在的位置3 找到Region对应的RegionServer4 查找对应的Region5 在对应的节点中区获取数据(如果MemStore没有刷新,则先从内存中获取数据,如果没有则向HFile中获取数据)写流程//后续会把图片补上(1)Client 向HRegionServer发送请求(2)HRegionServer写入数据到原创 2020-07-15 09:05:04 · 450 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase(四)MR on Hbase & Hbase的 架构
五、MR On HBase5.1 依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.2.4</version> </dependency> <原创 2020-07-14 10:43:48 · 394 阅读 · 0 评论 -
谢谢你这么好看/帅气,还关注了我
一开始我是不怎么喜欢写博客的,也是从上个月月底了才开始分享自己的学习内容,面试经历,还有就是一些对技术的一些认识,今天是我写博客的第16天,我收获了17个粉丝,我挺开心的,一方面我想自己加深印象,同时也可以在我加深印象的同时帮助到每一个正在奋斗的你们,还有就是我也想感谢这17个共同学习的伙伴,你们的关注也是我写博客的动力所在吧,谢谢...原创 2020-07-13 13:32:02 · 1499 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase(三)Java API
四、Java API4.1 依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.2.4</version></dependency>4.2 获取客户端private Connection connection; private原创 2020-07-13 10:41:42 · 353 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase(二) shell操作
三、Shell 操作3.1 常见命令status, table_help, version, whoamihbase(main):002:0> status1 active master, 0 backup masters, 1 servers, 0 dead, 2.0000 average loadhbase(main):003:0> version1.2.4, rUnknown, Wed Feb 15 18:58:00 CST 2017hbase(main):004:0>原创 2020-07-13 08:59:46 · 453 阅读 · 0 评论 -
史上最全面最完整的大数据学习第八章 Hbase ---- 初识 与 环境搭建
HBase今天的更新有点晚了,对不起对不起别骂了别骂了,在骂就傻了~一、概述HBase(Hadoop Database),是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。1.1 CAP(之前说过了哦)CAP原则又称CAP定理,指的是在一个分布式系统中,一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance)。CAP 原则指的是,这三个要素最多只能同时实现两点,不可能三者兼顾。1.原创 2020-07-12 17:12:07 · 936 阅读 · 0 评论 -
HadoopHA 史上最全面的大数据学习(七)Hadoop 集群
一、Hadoop HA 角色分配HadoopNode01HadoopNode02HadoopNode03ZookeeperZookeeperZookeeperNameNode(Active)NameNode( Standby)ZKFCZKFCJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeResourceManagerResourceManagerNodeM原创 2020-07-11 08:25:01 · 288 阅读 · 0 评论 -
史上最全面的关于大数据的分布式锁(六) 不会真的有人白嫖吧
什么是锁?在单进程的系统中,当存在多个可以同时改变某个变量时(可共享变量),就需要对变量或者代码块做同步,使其在修改这种变量时能够线性执行消除并发修改变量而同步的本质是通过锁来实现的。为了实现多个线程在一个时刻同一个代码块只能有一个线程可执行,那么需要在某个地方做个标记,这个标记必须每个线程都看到,当标记不存在是可以设置该标记,其余后续线程发现已经有标记了则进行等待拥有标记的线程结束同步代码块取消标记后再去尝试设置标记。这个标记可以理解为锁。不同的地方实现锁的方式也不一样,只要能够满足所有线程都能看原创 2020-07-10 09:02:56 · 271 阅读 · 0 评论 -
一致性算法——Paxos、Raft、ZAB 史上最全面的大数据学习(五) 奋斗吧
一致性算法——Paxos、Raft、ZAB1.1 CAP理论分布式系统的CAP理论:理论首先把分布式系统中的三个特性进行了如下归纳:● 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)● 可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)● 分区容错性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C原创 2020-07-09 10:35:44 · 567 阅读 · 1 评论 -
史上最完整的大数据学习(四) Zookeeper 完结篇 (API操作, shell命令 ,ZooKeeperACL 以及 分布式应用)
六、Java API操作6.1 原生 API1)Maven依赖 <!-- https://mvnrepository.com/artifact/org.apache.zookeeper/zookeeper --> <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artif原创 2020-07-08 09:01:16 · 1765 阅读 · 1 评论 -
书接上回 大数据学习(四)之使用场景.安装以及基本使用
三、ZooKeeper使用场景3.1 配置中心(数据发布与订阅)在分布式应用中为了实现对分布式节点的统一配置,通常将服务中的配置文件集中存储在一个配置服务中,例如 SpringCloud将配置信息存储在Git/SVN中,Solr Cloud 则将配置数据集中存储在Zookeeper中。这典型利用了Zookeeper节点的发布订阅特性。3.2 命名服务/服务分组(Naming Service)命名服务也是分布式系统中比较常见的一类场景。在分布式系统 中通过使用命名服务,客户端应用能够根据指定名字来获取原创 2020-07-07 12:41:52 · 377 阅读 · 0 评论 -
ZooKeeper 史上最全面的大数据学习(四)之ZK的概述和节点详情
一、概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调,但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期,考虑到很多项目都是用动物的名字来命名的(例如著名的Pig项目),雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家Rag原创 2020-07-07 09:03:16 · 646 阅读 · 0 评论 -
正式进入Hadoop学习 不会再有比我还全面的大数据学习(三) Hadoop生态圈
一、概述1.1 大数据概念大数据是需要新处理模式才能具有更强的决策力 、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产1.2 大数据面临的问题数据的存储:单机存储有限,如何解决海量存储?(分布式、集群等)数据的分析:单机的算力 有限,如何在合理时间内对数据完成成本运算?1.3 大数据的特点4V Volume 数据量 Velocity 时效 Variety 多样性 Value 价值1)数据量大B-KB-MB-GB-TB-PB-EB-ZB…各种云存储解决方案,百原创 2020-07-06 10:07:56 · 1036 阅读 · 0 评论 -
Hadoop源码编译 大数据学习(二)
Hadoop 源码编译一、为什么需要源码编译http://hadoop.apache.org/docs/r1.0.4/cn/native_libraries.html二、怎么编译?1 、基础环境yum install wget g++ autoconf automake libtool cmake zlib1g-dev pkg-config openssl-devel gcc-c++ zlib-devel ncurses-devel openssl-devel2、 下载源码包 ,并上传原创 2020-07-05 20:08:34 · 249 阅读 · 0 评论 -
不会真的有人看不懂 Linux 小白都能看懂的大数据入门(一) 图文
一、概述1.1 Linux的历史操作系统,英语Operating System简称为OS。说道操作系统就需要先讲一讲Unix,UNIX操作系统,是一个强大的多用户、多任务操作系统,支持多种处理器架构,按照操作系统的分类,属于分时操作系统,最早由KenThompson、Dennis Ritchie和Douglas McIlroy于1969年在AT&T的贝尔实验室开发。而linux就是一款类Unix系统。通常人们对linux都有一个错误的认识,就是这个名词"linux",其实是"linux no原创 2020-07-04 11:56:41 · 2043 阅读 · 2 评论 -
基于springboot+elasticsearch整合分页和高亮查询
spring-data3.1.x整合elasticsearch只支持到6.x,如果配置连接7.x则会报如下错误org.elasticsearch.client.transport.NoNodeAvailableException: None of the configured nodes are available: [{#transport#-1}{m7cqAfz-R_WtXreSiJp6GQ}{192.168.37.100}{192.168.37.100:9300}]配置环境1.pom文件配原创 2020-07-03 14:11:50 · 786 阅读 · 0 评论 -
7图带你快速入门sql
第一次写属于自己的文档:很多朋友平时处理数据可能更熟悉Excel,提到SQL就想逃避,殊不知SQL在处理大量数据时有Excel无法比拟的优势。而且根据二八定律,其实只需掌握20%SQL的基础内容,就足以胜任80%的常见工作啦。因此,我这里总结出了一份7周快速掌握SQL基础的指南,每周完成一张图里的内容就可以了啦。这份指南的内容都是基于《SQL基础教程》这本书来完成哦~那么我们就开始吧。第1周:SQL入门学习SQL语句的书写语法和规则可以双击图片放大第2周:查询基础S.原创 2020-06-28 11:23:45 · 339 阅读 · 0 评论