![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
陈小哥cw
这个作者很懒,什么都没留下…
展开
-
Flink on Yarn模式部署
独立(Standalone)模式由 Flink 自身提供资源,无需其他框架,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但我们知道,Flink 是大数据计算框架,不是资源调度框架,这并不是它的强项;所以还是应该让专业的框架做专业的事,和其他资源调度框架集成更靠谱。而在目前大数据生态中,国内应用最为广泛的资源管理平台就是 YARN 了。所以接下来介绍的是 YARN 平台上 Flink 是如何集成部署的。整体来说,YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的Resour原创 2022-06-17 16:13:29 · 7681 阅读 · 1 评论 -
kudu的一些限制
https://kudu.apache.org/docs/known_issues.htmlSchemaPrimary keysThe primary key may not be changed after the table is created. You must drop and recreate a table to select a new primary key.The columns which make up the primary key must be listed fi.原创 2021-01-27 10:03:20 · 710 阅读 · 0 评论 -
HAProxy页面参数解释
QueueCur: current queued requests //当前的队列请求数量Max:max queued requests //最大的队列请求数量Limit: //队列限制数量Session rate(每秒的连接回话)列表scur: current sessions //每秒的当前会话的限制数量smax: max sessions //每秒的新的最大的会话数量slim: sessions limit ...原创 2020-11-19 14:53:26 · 564 阅读 · 0 评论 -
HDFS的快照snapshot的使用
一,snapshot命令允许这个文件路径可以创建snapshots:hdfs dfsadmin -allowSnapshot <路径>不允许创建目录的快照。必须先删除目录的所有快照,然后再禁止快照。hdfs dfsadmin -disallowSnapshot <路径>创建快照hdfs dfs -createSnapshot <路径> [<快照名称>][root@cm1 ~]# hdfs dfs -createSnapshot /data/m原创 2020-05-15 15:24:57 · 760 阅读 · 0 评论 -
大数据相关资源网址
Spark安装地址1.官网地址http://spark.apache.org/2.文档查看地址https://spark.apache.org/docs/2.1.1/3.下载地址https://spark.apache.org/downloads.html原创 2020-02-16 13:35:02 · 354 阅读 · 0 评论 -
卸载虚拟网卡命令
卸载虚拟网卡命令:yum install -y libguestfs-toolsyum install -y virt-installvirsh net-listvirsh net-destroy defaultvirsh net-undefine default原创 2020-01-14 15:54:41 · 1511 阅读 · 0 评论 -
CDH各个版本组件版本及常见cdh链接
5.x的CDH各个组件版本信息https://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_cdh_vd.html6.x的CDH各个组件版本信息https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_62...原创 2020-01-07 09:53:42 · 5371 阅读 · 0 评论 -
sqoop安装和命令介绍
一,sqoop介绍1.1 sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop...原创 2019-12-23 11:30:31 · 379 阅读 · 0 评论 -
HBase与Hive的集成
HBase 虽然可以存储数亿或数十亿行数据,但是对于数据分析来说,不太友好,只提供了简单的基于 Key 值的快速查询能力,没法进行大量的条件查询。不过,Hive 与 HBase 的整合可以实现我们的这个目标。不仅如此,还能通过 Hive 将数据批量地导入到 HBase 中。Hive 与 HBase 整合的实现是利用两者本身对外的 API 接口互相通信来完成的,其具体工作交由 Hive 的 li...原创 2019-12-12 14:18:36 · 332 阅读 · 0 评论 -
HBase协处理器实现两个表数据的同步插入步骤
具体代码和配置文件见GitHub:https://github.com/cw1322311203/hbasedemo/tree/master/hbase-coprocesser1.协处理器实现两个表数据的同步插入步骤可以使用协处理器来实现两个表数据的同步插入协处理器(Hbase自己的功能)实现两表的同步数据插入步骤:创建类,继承BaseRegionObserver重写方法:pos...原创 2019-12-12 10:06:03 · 565 阅读 · 1 评论 -
使用MapReduce对HBase中表数据进行分析并存入MySQL中
目标:对HBase中的student表数据的value值进行wordcount,并写入MySQL前置准备:在maven中加入MySQL jdbc驱动包<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>...原创 2019-12-11 20:46:26 · 538 阅读 · 0 评论 -
MapReduce和HBase集成(Apache版本和CDH版本)
通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中,比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。1. 官方HBase-MapReduce查看HBase的MapReduce任务的执行$ bin/hbase mapredcp环境变量的导入执行...原创 2019-12-11 14:47:11 · 514 阅读 · 0 评论 -
hadoop,hbase,hive,spark遇到无权限问题Permission denied: user=root, access=WRITE解决
在hadoop,hbase,hive执行某些命令时,可能遇到以下问题Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x这是因为root用户没有相应权限导致的解决方法有以下几种1.第一种解决方案在hdfs上/user目录下创建root目录,需要在HDFS上有一个用户主目录...原创 2019-12-10 17:09:24 · 1677 阅读 · 0 评论 -
HBase API(Java)之对HBase表,命名空间等的操作
一,环境准备具体代码在GitHub: https://github.com/cw1322311203/hbaseapi新建项目后在pom.xml中添加依赖:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactI...原创 2019-12-10 16:15:09 · 3240 阅读 · 0 评论 -
hbase删除标记和注意事项
hbase删除有三种标记Delete标记: 删除特定列列指定的版本DeleteFamily标记: 删除特定列族所有列DeleteColumn标记: 删除特定列的所有版本指定rowkey: 使用DeleteFamily标记不加时间戳表示删除指定rowkey的所有数据加时间戳表示删除指定rowkey中时间戳版本小于或等于指定时间戳的所有数据指定rowkey+columnFamil...原创 2019-12-10 15:53:06 · 1282 阅读 · 0 评论 -
HBase shell常见命令
一,具体实践1.1 基本操作1.进入HBase客户端命令行[root@node1 hbase]$ bin/hbase shell2.查看帮助命令hbase(main):001:0> help# 查看指定命令帮助help "命令名"3.查看当前数据库中有哪些表hbase(main):002:0> list1.2 表的操作1.创建表hbase(main):00...原创 2019-12-06 17:13:43 · 611 阅读 · 0 评论 -
大数据相关资源网址
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired by awesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contri...原创 2019-11-29 09:54:22 · 1093 阅读 · 0 评论 -
hive常见问题
1.hive几种去重方式Distinct用法:对select 后面所有字段去重,并不能只对一列去重(1) 当distinct应用到多个字段的时候,distinct必须放在开头,其应用的范围是其后面的所有字段,而不只是紧挨着它的一个字段,而且distinct只能放到所有字段的前面(2) distinct对NULL是不进行过滤的,即返回的结果中是包含NULL值的(3) 聚合函数中的DISTI...原创 2019-11-01 20:40:47 · 248 阅读 · 0 评论 -
hive函数之日期函数
以下就是Hive内置支持的日期函数返回类型函数表达式描述stringfrom_unixtime(bigint unixtime[, string format])将unix时间戳(1970-01-01 00:00:00 UTC)的秒数转换为一个字符串,该字符串表示当前系统时区中该时刻的时间戳,格式为“ 1970-01-01 00:00: 00”。bigintun...原创 2019-10-14 12:35:59 · 974 阅读 · 0 评论 -
mapreduce的计算原理
第一章 mapreduce的计算原理1.MapReduce介绍MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数...原创 2019-06-13 21:02:11 · 3073 阅读 · 0 评论 -
nginx-nginx和反向代理概念
1.nginx-nginx和反向代理概念1.1 代理概念代理(英语:Proxy),也称网络代理,是一种特殊的网络服务,允许一个网络终端(一般为客户端)通过这个服务与另一个网络终端(一般为服务器)进行非直接的连接。一些网关、路由器等网络设备具备网络代理功能。一般认为代理服务有利于保障网络终端的隐私或安全,防止攻击。提供代理服务的电脑系统或其它类型的网络终端称为代理服务器(英文:Proxy Se...原创 2019-06-11 22:22:13 · 549 阅读 · 0 评论 -
spark算子 reduce,reduceByKey和groupByKey的区别
reduce和reduceByKey的区别reduce(binary_function)reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。具体过程,RDD有1 2 3 4 5 6 7 8 9 10个元素,1+2=33+3=66+4=1010+5=15...转载 2019-07-21 10:21:34 · 797 阅读 · 0 评论 -
impala的架构
无主模型,没有主从的概念HiveMetaStore和HDFS NameNode是外部系统,StateStore和Catalog是impala的内部系统Impala是一个长服务计算。而MapReduce是一个临时的计算,什么时候提交作业什么时候才会计算。Spark:启动服务后一直计算知道所有计算结束,进程拉起后执行完所有计算任务才会销毁。MapReduce:启动服务后执行作业的计算,计算...原创 2019-08-16 21:30:36 · 441 阅读 · 0 评论 -
Spark面试题(持续更新)
一、RDD中reduceBykey与groupByKey哪个性能好,为什么?reduceByKey:reduceByKey会在结果发送至reducer之前会对每个mapper在本地进行merge,有点类似于在MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后,数据量会大幅度减小,从而减小传输,保证reduce端能够更快的进行结果计算。groupByKe...原创 2019-09-18 12:00:22 · 732 阅读 · 0 评论 -
HDFS命令操作和高可用
1.HDFS的命令行操作查看所有HDFS的命令[root@node01 ~]# hdfs dfs #也可使用hadoop dfs创建HDFS的文件夹,如果父目录不存在,则创建(-p)/user目录是用户父目录,用户名做子目录,、/user/root代表用户家目录如果使用hdfs shell 缺省hdfs路径的时候,使用该目录[root@node01 ~]# hdfs df...原创 2019-06-13 08:51:49 · 530 阅读 · 0 评论