![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 94
热情的蘑菇
1.每天进步一丢丢,做个有趣的人
2.种一棵树最好时间是十年前,其次是现在
3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运
4.只有自己诚心待人,别人才有可能对自己以诚相待
5.普通并不等于庸俗。在许许多多普普通通的事情中,应该表现出不平常的看法和做法来。
展开
-
python3 安装thrift-sasl报错:Failed building wheel for sasl 解决方式
python3 安装thrift-sasl报错:Failed building wheel for sasl 解决方式安装thrift_sasl报错 sudo pip install thrift_saslLooking in indexes: https://mirrors.rong360.com/rong/pypi/+simpleCollecting thrift_saslCollecting thrift>=0.10.0 (from thrift_sasl)Requireme原创 2020-09-17 19:15:21 · 1495 阅读 · 0 评论 -
Hive和Hbase整合搭建步骤
Hive和HBase的通信意图Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现,通信原理如下图所示。Hive整合HBase后的使用场景:(一)通过Hive把数据加载到HBase中,数据源可以是文件也可以是Hive中的表。(二)通过整合,让HBase支持JOIN...转载 2019-01-02 11:34:53 · 1851 阅读 · 0 评论 -
hive的用户和用户权限
HiverServer2支持远程多客户端的并发和认证,支持通过JDBC、Beeline等连接操作。hive默认的Derby数据库,由于是内嵌的文件数据库,只支持一个用户的操作访问,支持多用户需用mysql保存元数据。现在关心的是HiveServer如何基于mysql元数据库管理用户权限,其安全控制体系与Linux及Hadoop的用户是否存在联系。1)remote方式部署HiveHive中...转载 2019-01-07 20:13:18 · 369 阅读 · 0 评论 -
hadoop最新稳定版本使用建议
hadoop最新稳定版本使用建议 Apache HadoopApache版本衍化比较快,我给大家介绍一下过程ApacheHadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1....转载 2019-01-22 15:47:06 · 10629 阅读 · 0 评论 -
sqoop增量导入常见问题
sqoop是干吗的,就不在这里浪费笔墨了,这里主要讲下一个新手接触到sqoop碰到的问题。一  业务场景 Hive 查询Hql的结果进入MySql,目前本人是通过两步来实现的,1 把hive查询结果直接进入Hive的表a(a表需要创建,结构需要和b一样)2 通过sqoop把表a的内容导入到MySql表b(b表已经存在),这个时候你需要现在hive上创...转载 2019-01-28 17:15:49 · 1135 阅读 · 0 评论 -
sqoop增量导入时使用--merge-key报错
脚本内容:export SQOOP_HOME=/home/software/sqoop-1.4.4.bin__hadoop-2.0.4-alphaexport PATH=PATH:PATH:PATH:SQOOP_HOME/binsqoop import –connect jdbc:mysql://192.168.124.130:3306/test –username root –pas...原创 2019-01-28 20:33:09 · 1742 阅读 · 0 评论 -
Hive官方手册翻译--hive事务
目录一、Hive 3的警告二、什么是ACID,为什么要使用ACID呢?三、限制四、流式API五、语法变化六、基本设计6.1、 基础目录和增量目录6.2、 紧缩器6.2.1、 增量文件紧缩6.3、 事务/锁管理器七、配置参数7.1、 事务的新配置参数7.2、 为INSERT,UPDATE,DELETE设置的参数7.3、 为紧缩设置的参数八、表属性 正文由 Alan Ga...转载 2019-01-29 10:35:51 · 1233 阅读 · 0 评论 -
sqoop从数据库到处数据到hdfs时mapreduce卡住不动解决
在sqoop时从数据库中导出数据时,出现mapreduce卡住的情况经过百度之后好像是要设置yarn里面关于内存和虚拟内存的配置项.我以前没配置这几项,也能正常运行。但是这次好像运行的比较大。出现此故障的原因应该是,在每个Docker分配的内存和CPU资源太少,不能满足Hadoop和Hive运行所需的默认资源需求。 解决方案如下:在yarn-site.xml中加入如下配置:...转载 2019-01-29 20:43:01 · 1125 阅读 · 0 评论 -
HIVE中的NULL处理
背景: 在此记录下使用 sqoop将数据从mysql导出到 hive过程中需要注意的几个地方,包括 NULL值处理、增量导入、parquet格式的日期类型注:这种数据传输工具其实没必要深究所有用法,用到哪块去研究下就行了Sqoop版本:1.4.6 - CDH5.13.0一、NULL处理1. ...转载 2019-01-30 10:35:47 · 9563 阅读 · 0 评论 -
grunt server报错:Warning: Task "server" not found. Use --force to continue.
jdk1.8环境ubuntu16.04系统 172.20.1.10 node-1ubuntu16.04系统 172.20.1.20 node-2ubuntu16.0.4系统 172.20.1.30 node-3安装elasticsearch版本:elasticsearch-6.2.2.tar.gz安装包下载路径(里边有6.2.2版本、6.4.2版本和...转载 2019-04-28 22:11:32 · 5803 阅读 · 0 评论 -
Hive和hbase集成操作
摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询 应用场景1. 将ETL操作的数据存入HBase2. HBase作为Hive的数据源3. 构建低延时的数据仓库 使用1.从Hive中创建HBase表使用HQL语句创建一个指向HBase的Hive表...转载 2019-01-02 11:32:35 · 287 阅读 · 0 评论 -
Yarn 调度器Scheduler详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三...转载 2018-12-12 19:10:05 · 243 阅读 · 1 评论 -
写给大数据开发初学者的话
转自http://lxw1234.com/archives/2016/11/779.htm导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫...转载 2018-07-02 13:02:40 · 138 阅读 · 0 评论 -
ElasticSearch中text和keyword类型的区别
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kakaluoteyy/article/details/80324553 ...转载 2018-08-23 18:59:23 · 6740 阅读 · 2 评论 -
Hadoop默认端口说明
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。组件 Daemon ...转载 2018-09-18 12:55:00 · 4568 阅读 · 0 评论 -
大数据的概念
什么是大数据?大数据(big data,mega data),或称巨量资料。比如TB,PB级别的数据。大数据特点可以总结为5V特点:1)Volume(大量)在电子商务平台eBay上,每天新增的数据量达到50TB,1年累计的数据量即达到18PB。与之相对地,根据IDC的研究报告,自人类开始记录历史以来,到2006年为止全人类全部的印刷书本文字加起来大约50PB。也就是说,仅eBay平台3年的新...原创 2018-09-19 09:54:13 · 615 阅读 · 0 评论 -
Hadoop的伪分布式的安装步骤
原创 2018-09-19 11:16:39 · 130 阅读 · 0 评论 -
Hadoop的启动
原创 2018-09-19 11:19:32 · 464 阅读 · 0 评论 -
租约锁机制
背景和介绍缓存是计算机里广泛使用的一种技术,对降低读取延迟、网络流量和服务器负载都非常有效,但也带来了一致性(Consistency)的问题。所谓一致就是客户端总能读到最新的数据,使用缓存后有可能服务器端的数据已经被修改,但客户端仍然从缓存中读取陈旧的数据。为了保证一致性,有两种常见的解决办法,第一种是轮询(Polling),即每...转载 2018-09-19 16:39:07 · 1076 阅读 · 1 评论 -
解决虚拟机中使用ntpdate报错:ntpdate[46700]: no server suitable for synchronization found
解决虚拟机中使用ntpdate报错:ntpdate[46700]: no server suitable for synchronization found 在使用ntpdate同步时间时出现上述错误: ntpdate[46700]: no server suitable for synchronization found 没有找到好的解决方案,只能换...转载 2018-10-13 12:55:41 · 867 阅读 · 1 评论 -
利用ZooKeeper搭建Hadoop的HA集群
利用ZooKeeper搭建Hadoop的HA集群 目录Hadoop HA 原理概述为什么会有 hadoop HA 机制呢?那如何解决呢?集群规划集群服务器准备集群安装1、安装 Zookeeper 集群2、安装 hadoop 集群Hadoop HA集群的初始化1、启动ZooKeeper2、在你配置的各个journalnode节点启动该进程3、格式化nam...转载 2018-10-10 17:02:12 · 512 阅读 · 0 评论 -
大数据学习路线
大数据学习路线java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,...转载 2018-07-01 08:12:23 · 293 阅读 · 0 评论