bingoabin
这个作者很懒,什么都没留下…
展开
-
RDD算子
RDD算子算子分类#1、transformation(转换)#根据已经存在的rdd转换生成一个新的rdd, 它是延迟加载,它不会立即执行例如:map / flatMap / reduceByKey 等#2、action (动作)它会真正触发任务的运行将rdd的计算的结果数据返回给Driver端,或者是保存结果数据到外部存储介质中例如:collect / saveAsTextFile 等transformation算子转换原创 2021-06-12 01:48:47 · 442 阅读 · 0 评论 -
kudu table
kudukudu介绍Kudu背景#在 KUDU 之前,大数据主要以两种方式存储:##可以更快地访问批量数据集(高吞吐量),而不是该数据集中的特定记录(低延迟)静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。动态数据:以 HBase、Cassandra 作为存储引擎,适用于大数据随机读写场景。这类存储的局限性是批量读取吞吐量远不如 HDFS,不适用于批量数据分析的场景。#从上面分析可知,这两种数据在存储方式上完全不同,进而导致使用原创 2021-06-05 16:52:23 · 354 阅读 · 0 评论 -
keepalived
说明`Keepalived VIP`是实现高可用性的一种轻量级技术手段,主要用来防止单点故障,主要方法是`通过实现虚拟IP对连接的节点进行漂移`,也就是说`服务只需要连接虚ip就可以`,实际上连接的是`虚ip`指定的真实服务,避免了`单点问题`。我们默认`KDC和LDAP`的虚拟ip是172.21.139.250。配置VIP需要有一个虚IP,这个IP是局域网内一个合法的IP,同时不能被ping通。配置VIP需要配置`keepalived.conf`和外部进行状态检测的脚本,这里提供我们的配置作为参考:`原创 2021-05-24 09:37:36 · 370 阅读 · 0 评论 -
hive小文件治理
hive小文件治理背景hive中的数据最终落地到HDFS上,在HDFS上不可避免的有小文件产生,小文件问题,会产生诸多问题,比如:1.对底层存储HDFS来说,HDFS本身就不适合存储大量小文件,小文件过多会导致namenode元数据特别大, 占用太多内存,严重影响HDFS的性能2.对hive来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成,而一个Map任务启动和初始化的时间远远大于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的Map数量是受限的。原因产生小文件原创 2021-05-02 10:55:49 · 320 阅读 · 1 评论 -
正则表达式
正则表达式一些规则#限定符? 比如used? 表示d可以出现0次或者1次* 表示出现0次或多次字符 比如ab*c 表示ac中间只能出现0个或者多个b+ 表示出现1次以上的字符 比如ab+c 表示ac中间至少出现一个b abc abbbbbbc{2,6} 表示精确出现的次数 比如ab{2,6}c,表示ac中间有只有2-6个b,如果想表示2次以上,可以把6省略,{2,}#上面的只是判断前面一个字符,如果想表示多个字符,可以用()括起来(ab)+ 表示至少出现ab 一次以上原创 2021-04-24 21:32:56 · 375 阅读 · 3 评论 -
Prometheus & Grafana
普罗米修斯 Prometheus介绍#Prometheus是一个时间序列数据库。但是,它不仅仅是一个时间序列数据库。#它涵盖了可以绑定的整个生态系统工具集及其功能。Prometheus主要用于对基础设施的监控。包括服务器,数据库,VPS,几乎所有东西都可以通过Prometheus进行监控。Prometheus希望通过Prometheus配置中定义的某些端点执行的HTTP调用来检索度量标准。工作流程Prometheus server 定期从配置好的 jobs 或者 exporters 中拉 m原创 2021-04-18 15:35:46 · 304 阅读 · 0 评论 -
数据库与缓存双写一致性
数据库与缓存双写一致性背景#首先,缓存由于其高并发和高性能的特性,已经在项目中被广泛使用。在读取缓存方面,大家没啥疑问,都是按照下图的流程来进行业务操作。#但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存。又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前没有一篇全面的博客,对这几种方案进行解析。策略#先做一个说明,从理论上来说,给缓存设置过期时间,是保证最终一致性的解决方案。#这种方案下,我们可以对存入缓存的数据设置过期时间,所有的写操作以数据库为准,对缓存操原创 2021-04-10 10:45:21 · 217 阅读 · 0 评论 -
mysql元数据解析hive表结构
1.mysql表中元数据dbs表CREATE TABLE `dbs` ( `DB_ID` bigint(20) NOT NULL, `DESC` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL, `DB_LOCATION_URI` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL, `NAME` varchar(128) CH原创 2021-04-10 10:41:54 · 317 阅读 · 0 评论 -
kerberos
kerberos通俗解释介绍Kerberos是一种网络认证协议,其设计目标是通过密钥系统为客户机/服务器应用程序提供强大的认证服务,该认证过程的实现不依赖于主机操作系统认证,需要基于主机地址的信任,不要求网络上所有主机的物理安全,并假定网络上传送的数据包可以被任意地读取、修改和插入数据。在以上情况下,Kerberos作为一种可信任的第三方认证服务,是通过传统的密码技术(如:共享密钥)执行认证服务的。组件• Client• Server• KDC(Key Distribution C原创 2021-04-03 11:07:18 · 334 阅读 · 0 评论 -
python自学记录
python基础jupyter使用#注意:1.添加虚拟环境,conda create --name python34 python=3.42.切换环境,启用Anaconda Prompt,activate python342.克隆环境,conda create --name [虚拟环境名] -- clone [colne的环境]3.卸载环境,conda remove --name python34 --all4.安装包,pip install requests5.卸载包,pip u原创 2021-01-28 16:17:50 · 345 阅读 · 0 评论 -
scala理解可变与不可变
我们定义变量的时候分为var可变变量和val不可变变量。我们使用容器的时候也分为可变容器和不可变容器。List和Tuple本身就是不可变的,set和map分为可变和不可变的,默认为不可变。//不报错var list = scala.collection.immutable.List(“Hello”,“World”);list += “Scala”;//报错val list = ...原创 2020-03-05 17:38:11 · 891 阅读 · 4 评论 -
solidity
1、stringpragma solidity ^0.4.0;contract StringTest{ string name = "xms"; function getName() public view returns(string){ return name; } function setName(string _name) publi...原创 2020-01-31 01:53:51 · 390 阅读 · 0 评论 -
hive
应用场景 当我们按照hadoop伪分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接使用,而是需要另外部署Hadoop的其他组件,来辅助使用。比如我们把数据存储到了hdfs,都是文件格式,用起来肯定不方便,用HIVE把数据从HDFS映射成表结构,直接用sql语句即可操作数据。另外针对分布式数据计算算法M原创 2017-11-13 16:59:37 · 323327 阅读 · 0 评论 -
hive表
1.抽取到hdfs成功后,就可以连接hive,创建外表了建立外表beeline -u jdbc:hive2://192.168.186.14:10010/default -n hdfsCREATE external TABLE nj12345.case_info_ex(CASE_SERIAL STRING, CASE_TITLE STRING, CASE_REGISTER STRING...原创 2018-06-03 01:58:43 · 894 阅读 · 0 评论 -
Hadoop学习路径
一、平台基础1.1、大数据了解什么是大数据,大数据入门,以及大数据介绍。 以及大数据中存在的问题,包括存储,计算的问题,有哪些解决策略。1.2、Hadoop平台生态圈熟悉了解开源Hadoop平台生态圈,以及第三方大数据平台,查找一些Hadoop入门介绍博客或者官网,了解: What’s Hadoop Why Hadoop exists How to Use Hadoop1.3、Hado原创 2018-05-04 20:10:37 · 1838 阅读 · 0 评论 -
hadoop端口
应用场景 Hadoop部署完分布式集群后,运行了一些组件,会产生很多进程,和web可以访问的端口,容易混淆,这里把一些常见的进程,进程的作用和端口进行归纳,总结,方便区分。操作步骤1. HDFS进程及端口 HDFS启动后包含的进程有:NameNode,DataNode,SecondaryNameNode启动方法,在主节点: # cd /opt/hadoop2.6.0/sbin/ #原创 2017-11-20 14:03:40 · 318954 阅读 · 0 评论 -
Hadoop分布式
应用场景 之前介绍了单节点,部署伪分布式hadoop集群,可以作为自己使用,但是真正投入生产环境,伪分布式是不够的,仅仅作为个人研究测试使用,此时我们需要部署搭建hadoop完全分布式集群,此hadoop性能将更加强悍,满足生产需求,下面就搭建Apache Hadoop2.6.0环境演示。操作步骤1. 配置网络[每个节点] 网络配置博客2. 关闭防火墙[每个节点] # systemctl原创 2017-11-13 10:46:53 · 326782 阅读 · 5 评论 -
Hadoop伪分布式
应用场景 在研究hadoop的过程中,当然需要部署hadoop集群,如果想要在本地简单试用hadoop,并且没有那么多服务器供你使用,那么伪分布式hadoop环境绝对是你最好的选择。操作步骤1. 安装JDK1.1 查看是否安装了openjdk # java -versionopenjdk version "1.8.0_65"OpenJDK Runtime Environment (build原创 2017-11-10 17:48:16 · 325105 阅读 · 0 评论 -
HDFS
应用场景 当数据量达到PB,ZB级别,或者传统关系型数据库遇到难题的时候,那么采用HDFS来替代是最好不过的工具了。操作步骤1. 架构图 Hadoop是由Apache基金会所开发的分布式系统基础架构,组织架构如下图所示: 正如上图所示:Hadoop包含很多优秀的子项目,例如HDFS,Mapreduce,Hbase,Hive,Zookeeper等,其中原创 2018-01-10 14:54:59 · 173166 阅读 · 0 评论 -
MapReduce
应用场景 当数据量大到一定程度,传统的技术无法进行解决的时候,那么需要采用分布式计算引擎MapReduce来尝试解决了!操作步骤1. 架构图 Hadoop是由Apache基金会所开发的分布式系统基础架构,组织架构如下图所示: 正如上图所示:Hadoop包含很多优秀的子项目,例如HDFS,Mapreduce,Hbase,Hive,Zookeeper等,原创 2018-01-10 14:59:12 · 173300 阅读 · 6 评论 -
Yarn
应用场景当部署好hadoop集群后,搭建了YARN集群,开启了hadoop的HDFS和YARN服务,访问主节点IP和8088端口的YARN监控界面,发现这个All Applications界面中的开始执行时间和结束执行时间不对,应该往后加8个小时才对,导致在页面中对任务监控的时候容易出错,所以现在要进行修改!操作步骤 错误显示如上图,如果正确的话,应该加上8小时,才是我应该想要的时间。 将h原创 2017-11-20 14:48:16 · 323038 阅读 · 2 评论 -
hbase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。 适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别; 利用Hadoop HDFS(Hadoop Distributed File System)作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统; 利用ZooKeeper作为协同服务。...原创 2018-08-03 11:34:02 · 4725 阅读 · 0 评论 -
zookeeper
应用场景 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。zookeeper有配置维护、域名服务、分布式同步、组服务等这些功能,它可以通过投票选举机制选举出leader,并且在hbase中,zookeeper尤为重要,zookeeper存储了hbase的元数据,所以想要搭建hbase集群之前,必原创 2017-11-15 17:19:42 · 320713 阅读 · 1 评论 -
sqoop
应用场景 当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接使用,而是需要另外部署Hadoop的其他组件,来辅助使用。比如我们需要把关系型数据库中的数据,抽取到hadoop分布式文件系统中时,我们需要额外安装Spoop组件来方便数据抽取导入操作。操作步骤1. Sqoop压缩包原创 2017-11-15 11:26:05 · 321733 阅读 · 0 评论 -
Kafka
应用场景 按照搭建hadoop完全分布式集群博文搭建完hadoop集群后,发现hadoop完全分布式集群自带了HDFS,MapReduce,Yarn等基本的服务,一些其他的服务组件需要自己重新安装,比如Hive,Hbase,sqoop,zookeeper,spark等,这些组件集群模式都在前面相关博文中有介绍,今天我们需要安装另外一个组件,它就是分布式消息系统Kafka。Kafka介绍 K原创 2017-11-23 16:06:55 · 326335 阅读 · 2 评论 -
Flume
应用场景 按照搭建hadoop完全分布式集群博文搭建完hadoop集群后,发现hadoop完全分布式集群自带了HDFS,MapReduce,Yarn等基本的服务,一些其他的服务组件需要自己重新安装,比如Hive,Hbase,sqoop,zookeeper,spark等,这些组件集群模式都在前面相关博文中有介绍,今天我们需要安装另外一个组件,它就是日志采集工具Flume。操作步骤1. Flume原创 2017-11-23 11:31:57 · 322204 阅读 · 0 评论 -
HUE
应用场景 按照搭建hadoop2.6.0完全分布式集群博文部署搭建了Hadoop完全分布式集群,发现如果要操作HDFS,HIVE需要到命令行中执行,比较麻烦,而一般情况下命令行是舍不得给业余人士用的,以免把整个环境给弄坏了,所以需要提供一种界面化的操作,来操作HIVE,HDFS,监控MapReduce任务,配置Oozie等等,这里我们选择开源的HUE,接下来得学习怎么使用它!操作流程1 HUE原创 2018-01-16 09:26:25 · 172754 阅读 · 0 评论 -
pig
应用场景 Pig并不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的,如果想执行的查询只涉及一个大型数据集的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其中很大一部分。 随着新版本发布,Pig的表现和原生MapRedece程序差距越来越小,因为Pig的开发团队使用了复杂、精巧的算法来实现Pig的关系操作。除非你愿意花大量时间来优化Java MapR原创 2018-01-16 09:46:18 · 172885 阅读 · 0 评论 -
Impala
应用场景 在使用Hive的过程中,编写了HQL语句,发现HQL执行过程是非常慢的,因为hive采用的是把HQL转化成hadoop的MapReduce任务,然后编译,打包成jar包,分发到各个server上去执行,这个过程会很慢很慢!而impala也可以执行SQL,但是比Hive快很多,而Impala根本不用Hadoop的Mapreduce机制,直接调用HDFS的API获取文件,在内存中快速计算!原创 2017-12-01 10:24:22 · 320054 阅读 · 0 评论 -
SQuirreL
应用场景 当Hadoop完全分布式集群搭建安装完毕后,安装了Hbase分布式非关系型数据库,但是hbase使用起来不像通常的关系型数据库,不可以用我们熟悉的sql语句来操作数据,因此我们安装了phoenix,使SQL还给NOSQL,因此Hbase可以通过SQL语句来进行操作了!但是我们需要一个像Navicat一样的客户端工具,可以更形象化的查看数据库,连接数据库,今天就来学习这样一个工具!操作原创 2017-11-29 14:58:01 · 321719 阅读 · 1 评论 -
Phoenix
应用场景 当我们按照之前的博文,安装完Hadoop分布式集群之后,再安装了Hbase,当准备通过hbase shell命令开始使用Hbase的时候,发现hbase非常的难用,都是一些scan,status,describe命令等,无法像mysql,oracle,hive等通过一些简单的SQL语句来操作数据,但是通过Phoenix,它可以让Hbase可以通过SQL语句来进行操作。并且Phoenix原创 2017-11-29 11:51:47 · 322369 阅读 · 1 评论 -
oozie
应用场景 Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL 数据库中的数据上原创 2018-01-16 09:55:34 · 173004 阅读 · 0 评论 -
mahout
应用场景 Mahout 是一个基于 Hadoop 的机器学习和数据挖掘的分布式计算框架,封装实现了大量数据挖掘经典算法,为 Hadoop 开发人员提供了数据建模的标准,从而大大降低了大数据应用中并行挖掘产品的开发难度。在掌握了 Mahout 之后,Hadoop 开发人员可以直接调用相关算法模型的接口,方便、快捷地创建智能应用程序,从而大幅提升商业智能软件的大数据分析能力。操作步骤1.引言原创 2018-01-16 10:30:27 · 173060 阅读 · 0 评论 -
storm
应用场景1.信息流处理Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。即 Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。2.连续计算Storm可进行连续查询并把结果即时反馈给客户端。比如把 Twitter 上的热门话题发送到浏览器中。3.分布式远程调用Storm 可用来并行处理密集查询。Storm 的拓扑结构是一个等待调用信息的分布函数,当它原创 2018-01-16 10:40:22 · 173894 阅读 · 0 评论 -
CDH
应用场景 部署Hadoop集群过程中,可以使用开源的Apache Hadoop或者可以用CDH【国外的一家公司基于开源的封装的】,搭建更加方便,方便扩充节点规模,组件管控,性能监控等等,但是也有一个弊端,针对组件安装的目录,以及生成的配置文件位置比较难找到,目录结构混乱,所以还是请慎用。操作步骤1. 概述 CM: Cloudera Manager (Cloudera公司专有的Hadoop集原创 2017-11-20 18:00:17 · 321463 阅读 · 0 评论 -
【大数据】【人工智能】【 区块链】
数据分为结构化数据(如人员信息、项目信息)和非结构化数据(如图片,文档),传统上讲,我们采用数据库来存结构化数据,如MySQL Oracle SQLServer,用NFS来存非结构化数据。 大数据,意味着数据多,如果记录数达到了上亿,一般数据库可能也就拖不动了。如果存储文件数达到几个T,甚至更多。那么NFS硬件又如何布局呢? 有时可能一台机器上的硬盘插满都不够。 有人说,不是可以原创 2018-05-04 21:42:38 · 2260 阅读 · 1 评论 -
h3c
1 产品简介 H3C 大数据平台(Data Engine)采用开源社区 Apache Hadoop2.0 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI 系原创 2018-01-16 10:47:10 · 174075 阅读 · 0 评论 -
Fusion Insight
1. 概述 华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。2. Fusion Insight框架介绍 Fusion Insight 组成结构图Fusion Insight解决方案由4个子产品Fusion Insight HD、Fusio原创 2018-01-16 10:52:44 · 183004 阅读 · 0 评论 -
tdh
1 Transwarp Inceptor简介 TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。 TranswarpInceptor可提供完整的SQL支持,支持主流的SQL模块化扩展,兼原创 2018-01-16 11:02:01 · 177399 阅读 · 0 评论 -
E-MapReduce
1. 产品介绍 E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、Kafka、Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。2. 产品优势3. 产品功能4. 应用场景4.1 离线数据处理4.2 Ad hoc数据分析4.3 海量数据在线服务4.4 流式数据处理原创 2018-01-16 11:17:22 · 173383 阅读 · 0 评论