热忱 ㅤ ㅤ-CSDN博客

原创谢谢你这么好看/帅气，还关注了我

一开始我是不怎么喜欢写博客的，也是从上个月月底了才开始分享自己的学习内容，面试经历，还有就是一些对技术的一些认识，今天是我写博客的第16天，我收获了17个粉丝，我挺开心的，一方面我想自己加深印象，同时也可以在我加深印象的同时帮助到每一个正在奋斗的你们，还有就是我也想感谢这17个共同学习的伙伴，你们的关注也是我写博客的动力所在吧，谢谢...

2020-07-13 13:32:02 1757

原创根据文档头判断文档后缀并修改

/ 256色位图(bmp)FILE_TYPE_MAP.put(“424d228c010000000000”, “bmp”);// 16色位图(bmp)FILE_TYPE_MAP.put(“424d8240090000000000”, “bmp”);// 24位位图(bmp)// rmvb/rm相同。

2023-10-20 16:07:41 401

原创 Scala语言入门

专门为计算而生的语言，Scala将(Java后者C++)面向对象设计和函数式编程结合在一起的简洁的高级编程语言。而函数式编程强调的是通过传递算子（代码|函数）实现大规模数据集的本地计算。Scala虽然是一门独立的编程语言，但是它可以无缝和Java语言对接。Scala编译的代码可以直接运行在JVM之上。

2023-10-19 14:26:08 653

先来简单的了解下Druid。Druid是一个数据库连接池。Druid可以说是目前最好的数据库连接池！因其优秀的功能、性能和扩展性方面，深受开发人员的青睐。Druid已经在阿里巴巴部署了超过600个应用，经过一年多生产环境大规模部署的严苛考验。Druid是阿里巴巴开发的号称为监控而生的数据库连接池！同时Druid不仅仅是一个数据库连接池，Druid核心主要包括三部分基于Filter－Chain模式的插件体系。DruidDataSource高效可管理的数据库连接池。SQLParserDruid的主要功能如下。.

2022-07-08 11:59:20 496

原创 ES在centOS 启动报错 UnsupportedOperationException 异常

ES6在centOS系统启动，报错：java.lang.UnsupportedOperationException: seccomp unavailable: CONFIG_SECCOMP not compiled into kernel, CONFIG_SECCOMP and CONFIG_SECCOMP_FILTER are needed原因: 因为Centos6不支持SecComp,而ES默认bootstrap.system_call_filter为true进行检测,所以导致检测失败,失败后.

2022-06-21 14:24:17 381

原创 Sqoop 史上最全面的大数据学习（十二）

一、概述Sqoop是一款开源的数据导入导出工具，可以将传统的关系型数据库导出至HDFS，也可以将HDFS中的数据导出至关系型数据库。官网： http://sqoop.apache.org/原理：在Hadoop生态体系中，计算基本依赖于MR，那么Sqoop也是如此，Sqoop就是将Sqoop语句翻译成MR程序，来实现一个数据导入和导出的操作。那就不难理解到Sqoop就是一个对于InpuFormat和OutputFormat进行特殊定制的MR程序。二、Sqoop安装2.1 下载官方下载地址：htt

2021-09-07 18:33:21 432

原创元数据管理-技术元数据解决方案

概念元数据是描述企业数据相关的数据，指在IT系统建设过程中所产生的有关数据定义，目标定义，转换规则等相关的关键数据，包括对数据的业务、结构、定义、存储、安全等各方面对数据的描述元数据是数仓建设环节中不可缺少的一部分(尤其是在数据治理环节)，是数据管理、数据内容、数据应用的基础。通过元数据可以打通数据源、数据仓库、数据应用、记录了数据流向的完整链路。它可以说是企业的数据地图，可以直接反映了企业中有什么样的数据，这些数据是如何存放的，以及数据之间的关系是如何的。分类参考Kimball的数仓模型理论

2021-02-22 14:13:53 1467

原创 Kafka 史上最全面的大数据学习（十一）集成SpringBoot 冲

10.1之前为了自己早点放假就有则加班，无责也加班，假期8天过的挺开心的，带爸妈去了拉萨，去了内蒙。开开心心。我来水文了。七、集成SpringBoot依赖pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 htt

2020-10-09 09:54:35 278 1

原创 Kafka 史上最全面的大数据学习（十一）javaAPI topic操作

五、Java API创建Topic@Test public void create() { Properties properties = new Properties(); properties.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "HadoopNode01:9092,HadoopNode02:9092,HadoopNode03:9092"); AdminClient adminC

2020-09-11 17:38:59 481 1

原创 Kafka 史上最全面的大数据学习（十一）偏移量

四、偏移量Topic以日志分区形式存储,分区中每一则Record都有个offset编号用于标示record的顺序.所有存储在kafka中record是允许用户重复消费的。kafka通过log.retention.hours控制Record存活时间.kafka服务端只负责存储topic日志数据,kafka消费端独自维护一套分区信息和offset偏移量,一旦消费完成后消费端会自动提交消费分区的offset信息.下次在开始消费的时候只需要从上一次offset开始即可献给每一个正在努力的我们，就算在

2020-09-07 09:20:14 495

原创 Kafka 史上最全面的大数据学习（十一）这是重点重点 Kafka的安装及一些shell操作不会只有我没过七夕吧

三、Kafka 安装单节点模式[root@HadoopNode00 ~]# mkdir /home/kafka[root@HadoopNode00 ~]# tar -zxvf kafka_2.11-0.11.0.0.tgz -C /home/kafka/# /home/kafka/kafka_2.11-0.11.0.0/config/server.properties# Switch to enable topic deletion or not, default value is false

2020-08-26 11:15:11 231

原创 Kafka 史上最全面的大数据学习（十一） Kafka组件与角色冲冲冲

二、Kafka组件与角色http://kafka.apache.org/Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies.kafka组件Broker每个Kafka Server称之为一个B

2020-08-21 10:08:38 304

原创 Kafka 史上最全面的大数据学习（十一） Kafka的概述重点重点

一、概述消息队列消息的概念消息的是系统间通信的载体，是分布式应用不可获缺的一部分。目前系统间发送消息有两种种类。同步消息即使消息：打电话、表达提交、WebService、Dubbo|SpringCloud要求消息发送方和接受放必须同时在线，一般都需要和接收方建立会话。异步消息发送方不理会对方是否在线，一般不需要和接收方建立会话，在接受方上线后，一般会获取发送方发送的消息。显而易见，可以看出消息队列就是使用的异步消息的模型。消息队列FIFO 先进先出使用场景异步消息系统间解耦

2020-08-08 12:07:09 222

原创 Flume 史上最全面的大数据学习第十篇（六)Flume完结篇

一、概述日志分类（1）业务操作日志一般存储在RDBMS上，多用于出现在后台管理系统记录相关的操作。（数据量不大）（2）系统运行日志要视具体的系统体现而看。指的是采集系统运行日志，进行系统监控。（3）用户行为日志采集用户行为点击、正常浏览、加入购物车、加入收藏、下单Flume 概述组件功能Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个source，channel以及sink。Source从Client收

2020-08-07 09:01:47 219

原创 Flume 史上最全面的大数据学习第十篇（六)fulme的一些其他案列

五、其它案例多级agent串联一级agenta1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = netcata1.sources.r1.bind = HadoopNode00a1.sources.r1.port = 6666a1.channels.c1.type = memorya1.sinks.k1.type = avroa1.sinks.k1.hostname = HadoopNode00a1

2020-08-06 22:55:38 256

原创 Flume 史上最全面的大数据学习第十篇（五) Java API 多写多练才行呢

Java API依赖<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-sdk</artifactId> <version>1.9.0</version></dependency> 代码public class App { public static void main(Strin

2020-08-05 11:33:47 647

原创 Flume 史上最全面的大数据学习第十篇（四）来了解一下flume的一些基础案例吧

这几天忙着项目上线，终于忙的差不多了，看着自己的劳动成果其实也挺开心的，加油加油!!! ???? ???? ????基础案例netcat-memory-logger# agent = a1 a1下有一个source叫r1a1.sources = r1# agent = a1 a1下有一个chanel叫c1a1.channels = c1# agent = a1 a1下有一个sink叫k1a1.sinks = k1# sourcea1.sources.r1.type =

2020-07-29 17:03:09 250

原创 java 面试题 --看完都知道mysql性能优化了

不会写文案吸引人，就只能写写硬核的东西给大家伙看看了1：idselect 查询的序列号，包含一组数字，表示查询中执行select子句或操作表的顺序三种情况 ID相同：执行顺序由上至下ID不同：如果是子查询，ID的序号会递增，ID值越大优先级越高，优先被执行ID有相同，也有不同的，即同时存在（ID值大优先执行，平级顺序执行）2：select_type查询的类型，主要是用于区别普通查询、联合查询、子查询等的复杂查询有6种类型 1:SIMPLE简单的select查询，查询中不包含子查询或者

2020-07-24 16:57:09 236

原创 Flume 史上最全面的大数据学习第十篇（三）这次应该知道flume的组件和启动命令了吧

四、使用4.1 常规组件罗列sourceAvro SourceExec SourceNetCat TCP SourceTaildir SourceKafka SourceSpooling Directory SourcesinkHDFS SinkAvro SinkLogger SinkFile Roll SinkKafka SinkchannelMemory ChannelJDBC ChannelKafka ChannelFile Ch

2020-07-24 09:00:31 372

原创 Flume 史上最全面的大数据学习第十篇（二）看完这篇小学生都会安装配置flume了

二、Flume 安装下载安装必须有Java 环境推荐JDK1.8Flume安装成功可以不用配置环境变量（方便的使用的话推荐配置）[root@HadoopNode00 ~]# mkdir /home/flume[root@HadoopNode00 ~]# tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /home/flume/[root@HadoopNode00 bin]# ./flume-ng version # 正确显示如下日志就

2020-07-23 09:02:28 255

原创 Flume 史上最全面的大数据学习第十篇（一）别再说不知道flume是什么了

昨天没有增加小粉丝，我反思了一下自己，是不是我写的东西太过枯燥了呀！挺难受的！算了还是不说了，每天都是美好的一天，给自己一个微笑吧 ???? 加油！一、概述日志分类（1）业务操作日志一般存储在RDBMS上，多用于出现在后台管理系统记录相关的操作。（数据量不大）（2）系统运行日志要视具体的系统体现而看。指的是采集系统运行日志，进行系统监控。（3）用户行为日志采集用户行为点击、正常浏览、加入购物车、加入收藏、下单Flume 概述组件功能Agent使用JVM 运

2020-07-22 09:26:05 339

原创 Hive 史上最全面的大数据学习第九篇（六）完结篇 Hive On HBase

一、概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一

2020-07-21 09:20:42 353

原创 Hive 史上最全面的大数据学习第九篇（五） Hive 自定义函数每一天都是美好的一天！

六、Hive 自定义函数在Hive当中又系统自带的函数，可以通过show functions;语句查询系统现在已经存在函数。desc function upper;显示自带函数用法，desc function extended upper;详细显示自带函数用法。其系统中已经存在很多函数，但是这些往往不能满足生产需求，所以Hive保留了相关接口，以便用户日后去自定义函数去拓展相关的功能。在Hive中，用户可以自定义一些函数，用于扩展HiveQL的功能，而这类函数叫做UDF（用户自定义函数）。UDF分.

2020-07-20 09:04:11 659

原创 Hive 史上最全面的大数据学习第九篇（四） Hive Sql 操作今天的你也要加油啊

五、Hive SQL 操作5.1 Select 语句使用正则表达式指定列create table logs( uuid string, userid string , fromUrl string , dateString string, timeString string, ipAddress string, browserName string, pcSystemNameOrmobileBrandName string , .

2020-07-19 09:40:10 470

原创 Hive 史上最全面的大数据学习第九篇（三） Hive表分类

四、表分类4.1 管理表（内部表）内部表与数据库中的Table在概念上是类似的，每一个内部Table在Hive中都有一个相应目录存储数据，所有的Table数据（不包括External Table）都保存在这个目录中。删除表时，元数据与数据都会被删除。4.2 外部表在创建表的时候可以指定external关键字创建外部表，外部表对应的文件存储在location指定的目录下，向该目录添加新文件的同时，该表也会读取到该文件（当然文件格式必须跟表定义的一致），删除外部表的同时并不会删除location指定目.

2020-07-18 08:30:19 316

原创 Hive 史上最全面的大数据学习第九篇（二） Hive表操作 --全面发展中

三、Hive表操作3.1 Hive 数据类型数据类型（primitive ，array，map，struct）primitive （原始类型）整数：TINYINT SMALLINT INT BIGINT 布尔:BOOLEAN 小数:FLOAT DOUBLE 字符:STRING CHAR VARCHAR 二进制:BINARY 时间类型:TIMESTAMP DATEarray（数组）：ARRAY<data_type>map（key-value类型）：MAP<KEY-.

2020-07-17 09:01:57 775

原创 Hive 史上最全面的大数据学习第九篇（一）概述 & 安装方式详解

一、概述由FaceBook开源用于解决海量结构化日志的数据统计工具。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是.

2020-07-16 08:59:52 406

原创史上最全面最完整的大数据学习第八章 Hbase完结篇 Hbase 集群搭建以及相关操作

HBase一、概述HBase(Hadoop Database)，是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gdBwJVtS-1594544562360)(assets/1572849284291.png)]1.1 CAPCAP原则又称CAP定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition

2020-07-15 20:20:42 328

原创史上最全面最完整的大数据学习第八章 Hbase（五） Hbase 的读写流程（面试可能会问到）

七、HBase 读写流程读流程//后续会把图片补上HBASE读数据流程1 客户端先访问ZK 从meta表读取Region的位置2 根据相关信息获取到Regiog所在的位置3 找到Region对应的RegionServer4 查找对应的Region5 在对应的节点中区获取数据（如果MemStore没有刷新，则先从内存中获取数据，如果没有则向HFile中获取数据）写流程//后续会把图片补上（1）Client 向HRegionServer发送请求（2）HRegionServer写入数据到

2020-07-15 09:05:04 600

原创史上最全面最完整的大数据学习第八章 Hbase（四）MR on Hbase & Hbase的架构

五、MR On HBase5.1 依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.2.4</version> </dependency> <

2020-07-14 10:43:48 496

原创史上最全面最完整的大数据学习第八章 Hbase（三）Java API

四、Java API4.1 依赖 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.2.4</version></dependency>4.2 获取客户端private Connection connection; private

2020-07-13 10:41:42 465

原创史上最全面最完整的大数据学习第八章 Hbase（二） shell操作

三、Shell 操作3.1 常见命令status, table_help, version, whoamihbase(main):002:0> status1 active master, 0 backup masters, 1 servers, 0 dead, 2.0000 average loadhbase(main):003:0> version1.2.4, rUnknown, Wed Feb 15 18:58:00 CST 2017hbase(main):004:0&gt

2020-07-13 08:59:46 655

原创史上最全面最完整的大数据学习第八章 Hbase ---- 初识与环境搭建

HBase今天的更新有点晚了，对不起对不起别骂了别骂了，在骂就傻了~一、概述HBase(Hadoop Database)，是一个基于Google BigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。1.1 CAP（之前说过了哦）CAP原则又称CAP定理，指的是在一个分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（Partition tolerance）。CAP 原则指的是，这三个要素最多只能同时实现两点，不可能三者兼顾。1.

2020-07-12 17:12:07 1106

原创 HadoopHA 史上最全面的大数据学习（七）Hadoop 集群

一、Hadoop HA 角色分配HadoopNode01HadoopNode02HadoopNode03ZookeeperZookeeperZookeeperNameNode（Active）NameNode（ Standby）ZKFCZKFCJournalNodeJournalNodeJournalNodeDataNodeDataNodeDataNodeResourceManagerResourceManagerNodeM

2020-07-11 08:25:01 376

原创 Spring Boot 2.0.6配置Actuator以及跟ehcache-core低版本共存问题

我们新的开发平台基于spring boot 2.0.6搭建（还未整体使用spring cloud）添加了Spring Boot 2.0.6的actuator后，开发平台碰到了这个问题描述：java.lang.NoSuchMethodError: net.sf.ehcache.Ehcache.getStatistics()Lnet/sf/ehcache/statistics/StatisticsGateway解决方案如下：ehcache-core最新的maven包发生了变化，变化如下：..

2020-07-10 14:28:52 577

原创史上最全面的关于大数据的分布式锁（六）不会真的有人白嫖吧

什么是锁？在单进程的系统中，当存在多个可以同时改变某个变量时（可共享变量），就需要对变量或者代码块做同步，使其在修改这种变量时能够线性执行消除并发修改变量而同步的本质是通过锁来实现的。为了实现多个线程在一个时刻同一个代码块只能有一个线程可执行，那么需要在某个地方做个标记，这个标记必须每个线程都看到，当标记不存在是可以设置该标记，其余后续线程发现已经有标记了则进行等待拥有标记的线程结束同步代码块取消标记后再去尝试设置标记。这个标记可以理解为锁。不同的地方实现锁的方式也不一样，只要能够满足所有线程都能看

2020-07-10 09:02:56 387

原创一致性算法——Paxos、Raft、ZAB 史上最全面的大数据学习（五）奋斗吧

一致性算法——Paxos、Raft、ZAB1.1 CAP理论分布式系统的CAP理论：理论首先把分布式系统中的三个特性进行了如下归纳：● 一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）● 可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）● 分区容错性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C

2020-07-09 10:35:44 739 1

原创史上最完整的大数据学习（四） Zookeeper 完结篇（API操作， shell命令，ZooKeeperACL 以及分布式应用）

六、Java API操作6.1 原生 API1）Maven依赖  <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artif

2020-07-08 09:01:16 1873 1

原创书接上回大数据学习（四）之使用场景.安装以及基本使用

三、ZooKeeper使用场景3.1 配置中心（数据发布与订阅）在分布式应用中为了实现对分布式节点的统一配置，通常将服务中的配置文件集中存储在一个配置服务中，例如 SpringCloud将配置信息存储在Git/SVN中，Solr Cloud 则将配置数据集中存储在Zookeeper中。这典型利用了Zookeeper节点的发布订阅特性。3.2 命名服务/服务分组（Naming Service）命名服务也是分布式系统中比较常见的一类场景。在分布式系统中通过使用命名服务，客户端应用能够根据指定名字来获取

2020-07-07 12:41:52 489

原创 ZooKeeper 史上最全面的大数据学习（四）之ZK的概述和节点详情

一、概述ZooKeeper是一个分布式应用所涉及的分布式的、开源的协调服务。是Google的Chubby的开源实现Zookeeper最早起源于雅虎的研究院的一个研究小组。在当时，研究人员发现，在雅虎内部很多大型的系统需要依赖一个类似的系统进行分布式协调，但是这些系统往往存在分布式单点问题。所以雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架。在立项初期，考虑到很多项目都是用动物的名字来命名的(例如著名的Pig项目)，雅虎的工程师希望给这个项目也取一个动物的名字。时任研究院的首席科学家Rag

2020-07-07 09:03:16 790

MindMaster.zip

空空如也