大数据
文章平均质量分 66
小小北漂
专注于大数据开发、调优、运维和web、爬虫相关开发
展开
-
hdp3.1.5 ambari自定义组件重启报错问题
ambari默认是无法管理elasticsearch和flink的,在网上能搜到相关的第三方自定义组件。es自定义组件安装参考链接:ElasticAmbari/README.md at master · ChengYingOpenSource/ElasticAmbari · GitHubflink自定义组件安装参考链接:Ambari 2.7.5安装Flink1.13.2_韦不二的博客-CSDN博客但是在实际使用的过程中发现上述两个自定义组件都存在一个共同的问题,每次如果重启服务的时候都会报错原创 2021-11-26 11:21:55 · 4128 阅读 · 0 评论 -
hive3 acid引起的spark和presto报错的问题,以及无法使用自定义函数问题
在hdp3.1.5中hive3中内部表默认开启了acid,当spark和presto创建和读取内部表的时候会报错,网上建议的方式是舍弃掉acid特性hive.strict.managed.tables=false hive.create.as.insert.only=false metastore.create.as.acid=false对应hdp的配置如下:重新hive服务后确实可以生效,但是这样在使用hive的c...原创 2021-11-26 10:39:19 · 1877 阅读 · 0 评论 -
【一】基于Faker创建hive数据的相关测试
一、Faker库的使用介绍python中有个专门生成各种测试数据的库Faker,可以模拟生成各种字段的数据,并且支持多种语言中文,英文,日语,韩语等等。安装方式:pip3 install Faker该库本身也支持命令行的方式使用,具体示例如下,可以使用"faker -h"查看相关说明文档。[root@node-76 ~]# faker -r=5 -s=";" -l zh_CN name王玉兰;陈丹丹;李俊;赵建军;刘玉;为了更好的使用这个库,我自己也简单的编写了一个生原创 2021-10-22 09:31:18 · 519 阅读 · 0 评论 -
xxl-job和dolphinscheduler的简单对比
最近再调研任务调度系统,感觉xxl-job和dolphinscheduler都是很棒的开源框架。这里简单的对二者做了一些对比,方便后续的选型个人感觉如果只是想找个简洁好用的日常的任务调度系统,并且不涉及大数据无疑选择xxl-job是更优的选择。如果直接应用于大数据相关任务调度,从功能点的丰富性和相关性感觉更适合选择dolphinscheduler...原创 2020-11-12 17:51:33 · 7102 阅读 · 3 评论 -
基于docker简单快速搭测试大数据集群
作为一个大数据的学习者,有时候我们希望基于自己的笔记本中虚拟机简单配置一个大数据集群用于测试,如果基于cdh在多个虚拟机中配置集群可能对笔记本的硬件要求会很高。其实有更简单快速基于docker的搭建方式,以下方式亲测可用.前期需要准备的工作自己安装虚拟机,在虚拟机中安装docker,docker-compose1首先在linux虚拟机下任意路径下创建一个指定的目录,例如spark 。然后在...原创 2020-03-12 15:21:30 · 672 阅读 · 0 评论 -
CDH配置JAVA_HOME
jdk成功安装java -version 正确显示版本 echo $JAVA_HOME 正确输出路径但CDH链接数据库还是报错:Error: JAVA_HOME is not set and Java could not be found解决办法mkdir -p /usr/java 在/usr/bin/下执行:ln -s /usr/local/lib/jdk1.8.0_21...原创 2020-02-23 19:20:59 · 996 阅读 · 0 评论 -
superset权限管理
Superset支持用户自定义创建一个角色,例如:您可以创建一个角色Financial Analyst,该角色将由一组数据源(表)和/或数据库组成。然后用户将被授予Gamma,sql_lab,或者自定义角色都可以。Superset的默认角色有:Admin、Alpha、Gamma、sql_lab、Public,下面介绍一下详细介绍一下每个角色的权限:1、Admin管理员有所有的权利,其中...原创 2019-12-27 19:03:52 · 2971 阅读 · 0 评论 -
kerberos介绍
重要术语1. KDC全称:key distributed center作用:整个安全认证过程的票据生成管理服务,其中包含两个服务,AS和TGS2. AS全称:authentication service作用:为client生成TGT的服务3.TGS全称:ticket granting service作用:为client生成某个服务的ticket4. AD...转载 2018-08-13 16:50:44 · 1076 阅读 · 0 评论 -
Ambari2.6.2 安装HDP2.6.5(非root用户离线安装)
一、下载安装包 因为使用在线安装特别慢,所有的安装包加起来有9个G左右,所以本教程是通过下载包,然后上传到服务器,通过配置本地源的方式来实现的离线安装。也可以事先直接在服务器上下载好相应的包,如下:nohup wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.6.2.0/ambari.rep...原创 2018-08-13 14:31:34 · 4921 阅读 · 4 评论 -
centos7 cdh manager5.14.2集群安装(完全离线)
最近因工作需要在一个完全离线的模式下安装一个CDH集群,在安装的过程中遇到许多问题,在此做个简单的记录。首先在安装之前有几点问题需要注意1建议使用root用户进行安装,因为在安装过程中CDH默认安装的时候,会创建各种用户,hdfs,hive,spark,impala,sqoop等等的用户,但往往我们在做一些操作的时候往往权限不够,导致各种各样的问题。我在尝试使用非root用户安装过程中没有...原创 2018-07-10 11:35:48 · 2152 阅读 · 2 评论 -
HBase region is not online 问题修复
hbase(main):002:0> get 'mynamespace:user_basic_info','BAC3510A922CF026500874EA3975E123'COLUMN CELL ERROR: org.apache.hadoop.hbase.NotServingRegionException: Region mynamespace:user_basic_info,B...转载 2018-05-17 15:05:54 · 1627 阅读 · 0 评论