大数据与云计算
文章平均质量分 81
mojolang
精品驿站
展开
-
HiveQL与SQL区别
1、Hive不支持等值连接 SQL中对两表内联可以写成:select * from dual a,dual b where a.key = b.key; Hive中应为:select * from dual a join dual b on a.key = b.key; 而不是传统的格式:SELECT t1.a1 as c1, t2.b1 as c2FROM t1, t2WHERE t1.a2 = t2.b22、分号字符 分号是SQL语句结束标记,在HiveQL中也是,但是在...转载 2022-01-19 06:26:40 · 845 阅读 · 0 评论 -
Spark 踩坑记:数据库(Hbase+Mysql)
前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Streaming持久化设计模式DStreams输出操作print:打印driver结点上每个Dstream中的前10个转载 2021-08-24 15:04:08 · 499 阅读 · 0 评论 -
Apache Flink 如何正确处理实时计算场景中的乱序数据
一、流式计算的未来在谷歌发表了 GFS、BigTable、Google MapReduce 三篇论文后,大数据技术真正有了第一次飞跃,Hadoop 生态系统逐渐发展起来。Hadoop 在处理大批量数据时表现非常好,主要有以下特点: 计算开始之前,数据必须提前准备好,然后才可以开始计算; 当大量数据计算完成之后,会输出最后计算结果,完成计算; 时效性比较低,不适用于实时计算. 而随着实时推荐、风控等业务的发展,数据处理时延要求越来越高,实时性要求也越来越高,Flink 开转载 2021-03-16 09:48:25 · 1039 阅读 · 1 评论 -
2021-03-12
Flume连接HDFS 进入Flume配置 配置flume.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # sources a1.sources.r1.type = netcat a1.sources.r1.bind = 0.0.0.0 a1.sources.r1.port = 41414 # sin..转载 2021-03-12 15:44:44 · 438 阅读 · 0 评论 -
CDH| Yarn资源队列划分管理
Yarn用户资源隔离配置,主要使用Yarn动态资源池(dynamic resource pool)_ 对YARN应用程序进行资源和策略分配的池。(Impala资源也可以动态管理)_动态资源池允许安排和分配用户访问特定池,用来执行YARN应用程序。如果一个池的资源未被使用,它可以被占用(preempted)并分配给其他池。否则,就根据各个池的权重来共享资源。访问控制列表(Access control lists (ACLs)) 对提交访问和管理访问进行限制。现阶段集群资源使用没有进行明确的划分,业务..转载 2021-03-08 14:00:55 · 4219 阅读 · 0 评论 -
hadoop的yarn资源队列
0. 起因在这里插入图片描述试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?是先执行A的任务,再执行B的任务,还是同时跑两个?如果你存在上述的困惑,可以多了解一些yarn的资源调度器。在Yarn框架中,调度器是一块很重要的内容。有了合适的调度规则,就可以保证多个应用可以在同一时间有条不紊的工作。最原始的调度规则就是FIFO,即按照用户提交转载 2021-03-08 13:58:15 · 1118 阅读 · 0 评论 -
Hadoop-之yarn容量调度器之多队列配置与解读
摘要:Hadoop-之yarn容量调度器之多队列配置与解读 前言 通常来说Yarn作为一个资源管理器,可以给不同类型的Application分配资源,并合理调度job执行,Yarn支持的调度策略有3种。 FIFO SCHEDULERCAPACITY SCHEDULERFAIR SCHEDULER 但是默认是CAPA…Hadoop-之yarn容量调度器之多队列配置与解读前言通常来说Yarn作为一个资源管理器,可以给不同类型的Appl转载 2021-03-08 13:48:01 · 1346 阅读 · 1 评论 -
presto内存配置
说明query.max-memory: The maximum amount of distributed memory that a query may use. query.max-memory-per-node: The maximum amount of user memory that a query may use on any one machine. query.max-total-memory-per-node: The maximum amount of user and sys转载 2021-02-25 18:14:44 · 981 阅读 · 0 评论 -
Spark+Hbase 读取分片数据、深挖原理
大猪见很多文章都写了Hbase如何设计rowkey避免热点问题,就连大猪的文章也写过这样的优化,但是只说到了优化的点上,那如何读取呢?刚才就有一位老朋友跟我说他的方案,他是做了16个预分区,然后就把16个分区的数据使用spark的union起来,组成16个RDD,牛批的孩子,看到他这么干,我得写篇文章出来探讨一下这个问题了。Rowkey设计在设计Hbase的rowkey的时候,我们往往会在高位上设置加上数字或者是Hash用来打散数据,特别是日志数据。举个例子:转存失败重新上传取消...转载 2021-02-24 11:29:54 · 555 阅读 · 0 评论 -
scala中的:: , +:, :+, :::, +++, 等操作的含义
package test/** * scala中的:: , +:, :+, :::, +++, 等操作; */object listTest { def main(args: Array[String]): Unit = { val list = List(1,2,3) // :: 用于的是向队列的头部追加数据,产生新的列表, x::list,x就会添加到list的头部 println(4 :: list) //输出: List(4, 1, 2, 3) //...转载 2021-01-19 17:07:25 · 408 阅读 · 1 评论 -
Yarn 使用 Cgroup 实现任务资源限制
Linux CGroup 全称是 Linux Control Group,是 Linux 内核提供的一个用来限制进程资源使用的功能,支持如 CPU, 内存,磁盘 IO 等资源的使用限制。用户可以使用 CGroup 对单个进程或者一组进程进行精细化的资源限制,具体使用方式可以查看参考文档。目前, Yarn NodeManager 能够使用 CGroup 来限制所有 containers 的资源使用,主要是 CPU 资源。如果不用 CGroup, 在 NM 端很难实现对 container 的 CPU 使用转载 2020-05-20 09:29:27 · 2192 阅读 · 0 评论 -
mongod的--smallfiles参数介绍
mongod 守护进程的--smallfiles参数仅适用于MMAPv1存储引擎。smallfiles用于设置MongoDB使用较小的默认文件大小。 --smallfiles 选项会减少数据文件的初始大小,并将最大大小限制为512 mb。 smallfiles也会将每个日志文件的大小从1gb减少到128mb。 如果你有大量的数据库,每个数据库都包含少量的数据,那么建议使用--smallf...转载 2020-03-05 02:19:31 · 1833 阅读 · 0 评论 -
Kafka学习之怎么保证不丢,不重复消费数据
Kafka作为当下流行的高并发消息中间件,大量用于数据采集,实时处理等场景,我们在享受他的高并发,高可靠时,还是不得不面对可能存在的问题,最常见的就是丢包,重发问题。丢包问题:消息推送服务,每天早上,手机上各终端都会给用户推送消息,这时候流量剧增,可能会出现kafka发送数据过快,导致服务器网卡爆满,或者磁盘处于繁忙状态,可能会出现丢包现象。解决方案:首先对kafka进行限速, 其次启用...转载 2019-04-17 13:59:32 · 1903 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料...转载 2018-12-24 18:49:24 · 9564 阅读 · 4 评论 -
Hive学习之路 (四)Hive的连接3种连接方式
目录一、CLI连接 二、HiveServer2/beeline 1、修改 hadoop 集群的 hdfs-site.xml 配置文件 2、修改 hadoop 集群的 core-site.xml 配置文件 三、Web UI 正文回到顶部一、CLI连接进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Cl...转载 2018-12-04 14:41:54 · 1229 阅读 · 0 评论 -
MapReduce过程详解及其性能优化
废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无法充分利用分布式硬件资源;2、Ma...转载 2018-05-09 19:46:06 · 880 阅读 · 1 评论 -
Linux中添加、修改和删除用户和用户组
一、用户:在创建用户时,需要为新建用户指定一用户组,如果不指定其用户所属的工作组,自动会生成一个与用户名同名的工作组。创建用户user1的时候指定其所属工作组users,例:useradd –g users user11、使用命令 useradd 创建用户例:useradd user1——创建用户user1 useradd –e 12/30/2009 user2——创建user2,指定有效期200...转载 2018-05-07 10:58:42 · 1810 阅读 · 0 评论 -
Hbase1.2.0以后 JavaAPI最新接口调用方法
2017年11月20日 18:11:07阅读数:725[java] view plain copypackage cn.gaiay.hbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; i...转载 2018-04-28 17:28:05 · 488 阅读 · 0 评论 -
HBase学习3(win下使用Eclipse搭建hbase开发环境)
第一步:创建一个java project命名为wujiadong_hbase第二步:在该工程下创建一个folder命名为lib(储存依赖的jar包)第三步:将集群中的hbase安装目录下载一份到win下,将hbase下lib目录(I:\data science\hbase\hbase-0.9\lib)中所有的jar包复制到刚才创建lib文件夹下复制进去之后,选中lib文件夹下的所有jar包,右键B...转载 2018-04-28 13:54:40 · 551 阅读 · 0 评论 -
Hadoop2.7.3 mapreduce(一)原理及"hello world"实例
MapReduce编程模型【1】先对输入的信息进行切片处理。【2】每个map函数对所划分的数据并行处理,产生不同的中间结果输出。【3】对map的中间结果数据进行收集整理(aggregate & shuffle)处理,交给reduce。【4】reduce进行计算最终结果。【5】汇总所有reduce的输出结果。【名词解释】ResourceManager:是YARN资源控制框架的中心模块,负责集...转载 2018-04-28 13:53:04 · 475 阅读 · 0 评论 -
[Hadoop]MapReducer工作过程
1. 从输入到输出一个MapReducer作业经过了input,map,combine,reduce,output五个阶段,其中combine阶段并不一定发生,map输出的中间结果被分到reduce的过程成为shuffle(数据清洗)。在shuffle阶段还会发生copy(复制)和sort(排序)。在MapReduce的过程中,一个作业被分成Map和Reducer两个计算阶段,它们由一个或者多个M...转载 2018-04-28 13:52:06 · 235 阅读 · 0 评论 -
Hadoop + MapReduce 端口自定义配置
查看端口占用:netstat –apn | grep 8080core-site.xml<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration>...转载 2018-04-28 13:50:56 · 3345 阅读 · 0 评论 -
使用Eclipse连接hbase1.1 hadoop2.6
配置项目环境:1.当第三方应用访问HBase时,需要首先访问ZooKeeper(由$HBASE_HOME/conf/hbase-site.xml设置),因此需要通过classpath来指定HBase配置文件的位置(即$HBASE_HOME/conf的位置) 其它文章介绍将hbase-site.xml拷贝过来就可以了,我是将hadoop下的两个文件也拷贝过来了。2.将hbase目录lib下的jar...转载 2018-04-28 13:49:07 · 480 阅读 · 0 评论 -
霏霏暮雨 eclipse+HBASE开发环境搭建(已实践
开发准备: jdk1.8.45 hbase-1.2.2(windows下和linux个留一份) hadoop-2.7.2(linux一份) Linux系统(centos或其它) Hadoop安装环境 HBase安装环境 具体操作步骤如下:1. Eclipse中新建Maven项目, type为maven-archetype-quickstart,工程名为MyHBase2. 将hadoop...转载 2018-04-28 13:47:23 · 245 阅读 · 0 评论 -
阿里出品的ETL工具dataX初体验
我的毕设选择了大数据方向的题目。大数据的第一步就是要拿到足够的数据源。现实情况中我们需要的数据源分布在不同的业务系统中,而这些系统往往是异构的,而且我们的分析过程不能影响原有业务系统的运行。为了把不同的数据归集起来,我开始了解和接触ETL。本篇介绍阿里的开源ETL工具dataX。ETL&&常用工具ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从转载 2018-02-03 15:51:21 · 11833 阅读 · 0 评论 -
hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默转载 2017-05-06 19:37:23 · 548 阅读 · 0 评论 -
hive常用命令整理
1. 开启行转列功能之后:set hive.cli.print.header=true; // 打印列名set hive.cli.print.row.to.vertical=true; // 开启行转列功能, 前提必须开启打印列名功能set hive.cli.print.row.to.vertical.num=1; // 设置每行显示的列数2.使用过程中出错采用:hiv转载 2017-05-06 19:10:02 · 899 阅读 · 0 评论 -
Hive安装配置指北(含Hive Metastore详解)
本文介绍Hive安装配置的整个过程,包括MySQL、Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别。网上有很多介绍Hive Metastore三种配置方式的文章,但是理解都不对,给读者造成了很多误导。本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分,并经过实践,终于填好各种坑,安装配置成功,遂记录下本文,供大家参考。1.转载 2017-05-06 19:05:39 · 1762 阅读 · 0 评论 -
Hive metastore三种配置方式
Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可[html] view plain copy pri转载 2017-05-06 19:02:58 · 1083 阅读 · 0 评论 -
Hadoop+Hive部署安装配置
最近又用到Hive,重新记录一下安装方式,搭建了Hadoop+Hive,在运行Hive之前要首先搭建好Hadoop,关于Hadoop的搭建有三种模式,在以下的介绍中,我主要的采用的是Hadoop的伪分布安装模式。写下来给各位分享。 准备工作: 以上所有的下载的安装包和解压后文件均在/usr/local/hadoop目录1、分别ssh到每台服务器上,在root用户下修改转载 2017-05-05 16:10:10 · 829 阅读 · 0 评论 -
百度云资深架构师聊百度云存储架构特点
12月9日,2016中国存储峰会在北京举行。在“云存储及灾备技术论坛”,百度云资深架构师王耀介绍了百度云的发展历程,并就百度云存储产品体系中的块存储与对象存储的架构与特点进行了重点分享。在BAT中,百度做公有云比较晚,但在技术上却有很多创新。比如2013年引起广泛关注的ARM存储服务器就是一个很好的例子。最近两年,百度云开始发力,其云存储体系有诸多创新之处。据王耀介绍,目前百度云存转载 2017-04-25 19:33:59 · 17736 阅读 · 0 评论 -
HBase java 增删改查操作
package hbase;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseCon转载 2017-03-13 22:43:17 · 863 阅读 · 0 评论 -
spark与storm的对比
spark与storm的对比对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低转载 2017-03-13 14:46:29 · 844 阅读 · 0 评论 -
执行start-dfs.sh后,datenode没有启动
查看日志如下: 2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:9转载 2016-12-08 23:03:59 · 542 阅读 · 0 评论 -
Hadoop2.7.2之集群搭建(三台)
原文地址:http://blog.csdn.net/uq_jin/article/details/51513307如果你还没有虚拟机,请参考:http://blog.csdn.net/uq_jin/article/details/51355124 如果你还没有试过单机模式,请参考:http://blog.csdn.net/uq_jin/article/details/51451995转载 2016-11-21 18:04:41 · 624 阅读 · 0 评论 -
三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)
写在前边的话: 转载请注明出处:@http://blog.csdn.net/gamer_gyt,Thinkagmer 撰写 之前是在自己电脑上部署的Hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之转载 2016-11-15 19:03:51 · 3639 阅读 · 0 评论 -
linux平台Redis安装
◆ 软件下载和安装wget http://code.google.com/p/redis/downloads/detail?name=redis-2.0.4.tar.gztar xvzf redis-2.0.4.tar.gzcd redis-2.0.4makemkdir /home/rediscp redis-server /home/rediscp redis转载 2014-06-11 20:47:25 · 702 阅读 · 0 评论 -
MongoDB Shell 常用操作
MongoDB Shell 常用操作翻译 2014-05-29 14:50:14 · 4134 阅读 · 0 评论 -
MongoDB 数据库M-S主从复制
在同一台机器上用2个不同的端口,启动mongodb在数据库目录下建立2个新目录[root@localhost ~]# mkdir /data/db/master [root@localhost ~]# mkdir /data/db/slave主:只需要带上--master参数,表明这是个主就可以了,相当的方便。[root@localhost ~]#转载 2014-05-29 14:06:23 · 750 阅读 · 0 评论 -
mongodb group分组(最详细、最通俗、最易理解的讲解)
和数据库一样group常常用于统计。MongoDB的group还有很多限制,如:返回结果集不能超过16M, group操作不会处理超过10000个唯一键,好像还不能利用索引[不很确定]。 Group大约需要一下几个参数。 1.key:用来分组文档的字段。和keyf两者必须有一个 2.keyf:可以接受一个javascript函数。用来动态的确定分组文档的字段。和key翻译 2014-05-15 21:48:23 · 12905 阅读 · 2 评论