自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunnyRivers

别以为自己到了极限,那可能只是别人的起点!

  • 博客(19)
  • 资源 (9)
  • 收藏
  • 关注

原创 HDFS某个节点的磁盘满了

前言昨天还是周末,公司群里就有人@,说集群有问题了,敲完Hive一直卡在哪里进不去,于是我很快登上WebUi,看到了这么一幕:这台节点的磁盘满了,其他的数据分布都比较平均为什么会这样这里就不得不说一下HDFS复本存放策略了:namenode如何选择在哪个datanode存储复本(replica)?这里需要针对可靠性、写入带宽和读取带宽进行权衡。例如,把所有复本都存储在一个节点损失的写...

2019-12-23 16:27:37 5021 2

原创 修改HDFS文件所有者

前言想把HDFS上的mysql驱动文件,所有者由cloudera改为oozie,我的操作:hadoop fs -chown oozie /user/oozie/share/lib/lib_20191203182652/sqoop/mysql-connector-java-5.1.48.jar报错:chown: changing ownership of '/user/oozie/sha...

2019-12-20 17:12:52 3215 1

原创 Hue中Sqoop导数报错Could not load db driver class: com.mysql.jdbc.Driver

前言在Hue上面测试一个很简单的Sqoopimport--connectjdbc:mysql://10.169.xx.xxx/test--usernameroot--passwordroot--as-textfile--columnsid,name,english,chinese,math--tableexam--target-dirhdfs://master02:8...

2019-12-20 16:58:37 1790 1

原创 Yarn无法查看日志: Aggregation may not be complete, Check back later or try the nodemanager at xxxx:xxxx

前言最近这个新集群搭建完后,出现了很多问题,今天又出现了要给蛋疼的问题,执行了一个测试代码,想要通过yarn查看日志,可以用命令:yarn logs -applicationId application__1576828612082_0004_000001也可以直接再Web UI中点击查看:本来很简单的操作,谁知道在这个集群就报错了出现的问题点击Web中的logs后直接跳转到如下一...

2019-12-20 16:35:41 7564 3

原创 Hue由于主备NameNode切换引发的问题

前言最近今天依然在测试新集群的各个组件,发现了Hue出现了几个问题问题一点击文件:报错:问题二点击Workflow:出现的问题:页面一直卡在这转啊转,一直没有报错,只能从查看Hue日志,发现报的错和问题一,一模一样403 Client Error: Forbidden for url: http://master01:9870/webhdfs/v1/%3Fdefault_...

2019-12-19 14:59:13 643

转载 如何使用Hue上创建一个完整Oozie工作流

1. 文档编写目的在使用CDH集群中经常会有一些特定顺序的作业需要在集群中运行,对于需要多个作业顺序执行的情况下,如何能够方便的构建一个完整的工作流在CDH集群中执行,前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2的Oozie工作流》、《如何使用Hue创建Spark2的Oozie工作流(补充)》、《如何在Hue中创建Ssh的Ooz...

2019-12-19 11:55:11 464

原创 使用sudo su从一个普通用户切换到另一个普通用户如何免密

前言每次从usera用户切换到userb的时候:[usera@node01 ~]$ sudo su - userb[sudo] password for usera: 这个时候每次都要输入usera的密码,感觉很麻烦如何解决sudo vim /etc/soduers尾部添加usera ALL=(ALL:ALL) NOPASSWD:ALL测试[usera@node01 ~...

2019-12-19 11:12:04 3681

原创 Sqoop测试

前言很早之前用过Sqoop,后来就再也没有用过,原因是:Sqoop走的MR,效率显然不咋地啊不过,最近新集群搭建起来后,想把能配的组件都配置起来,然后进行测试,于是就把之前测试过Sqoop的东西,整理了一下Sqoop简介Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据...

2019-12-18 16:44:39 739

转载 Java笔试面试目录

转载

2019-12-17 20:57:24 166

原创 Hive Cli 和 Beeline

前言你们怎么直接用hive命令进hive呢?为什么不使用beeline,另一个部门的同事,看到我直接输入hive 回车进入hive,感到很困惑。我说有什么区别吗?我一直都用的cli,从未用过beeline。这个同事说区别是:cli 服务器是HiveServer,而beeline服务器是HiveServer2。HiveServer不能处理多个客户端的并发请求,所以产生了HiveServer2。...

2019-12-13 15:50:20 2515 6

原创 Linux的/var/www/html目录

前言给CDH添加入Flink、Kylin等组件的时候,需要把下载Flink的Parcel放在/var/www/html目录下,把文件放到这个目录下就可以通过IP很方便的访问,比如我在/var/www/html目录下创建/flink-1.9.0文件,并把Parcel文件放在该目录,然后就可以通过浏览器访问了如何访问http://[ip]/flink-1.9.0我第一次访问的时候,出现了一个...

2019-12-13 09:42:06 9415 1

原创 Hive锁表的问题

前言旁边的实习生一副很无奈的表情:集群又出现问题了,hive一直卡住不能用。我看了一下他执行的hivesql,发现他想查询我正在往Hive中导数据的表,这个时候Hive由于锁的问题,是无法查询的,那么数据库的锁究竟是什么东东呢?数据库锁详情参考锁主要是为了保证数据的完整性和一致性Hive中的锁详细请看官网hive存在两种锁,共享锁 Shared (S)和互斥锁 Exclusive (...

2019-12-12 14:46:08 4675

原创 CDH6.2.1安装Kafka出现的问题

前言之前用的CDH 5.6.X版本,默认是没有Kafka的,刚刚搭建了一个新的集群,用的CDH6.2.1,自带了kafka不需要我们下载parcels包根据以往在CDH安装组件的经验,应该是非常easy的,没想到…问题一这里我选择了五台Broker,其他的不需要填写,在启动的时候报错:在网上搜了一圈,大概说是因为集群中broker默认都为0!!!我们必须得手动改为唯一的。于是我把...

2019-12-12 11:12:52 1695

原创 Order By后产生NULL的问题

前言这里记录一下使用Spark-Shell查询Hive中数据时遇到的一点点问题,Hive表中一个字段的数据如下:+--------------+ | register_time|+--------------+|20190824192307||201512201...

2019-12-10 15:54:37 976

原创 Mysql索引

前言Javaweb的一个实习生过来问我:我现在有两张表数据量很大,每张都有五十几万条呢,做了关联后十几分钟都没有出结果,估计得用大数据技术处理,给我提个建议。我一脸迷惑:不超过千万条的数据,完全用不到大数据技术,mysql毫无压力的就可以处理,你怎么会耗时十几分钟呢?你是不是没有做索引?小伙子:索引?啥意思?。。。索引是什么索引是一个单独的、存储在磁盘上的数据结构,他们包含着对数据表里...

2019-12-10 11:21:53 300

原创 单个字段中根据条件剔除数据

模拟数据数据一:123数据二:12需求:数据一中不包含数据二的数据代码object JoinTest { def main(args: Array[String]): Unit = { import org.apache.spark.sql.SparkSession import org.apache.log4j.{Level, Logger} ...

2019-12-03 21:03:42 428

原创 不同条件剔除数据

模拟数据1,张三,232,李四,243,王五,254,赵六,265,田七,25需求:剔除年龄为25、姓名为张三的数据代码object CullTest { def main(args: Array[String]): Unit = { import org.apache.spark.sql.SparkSession import org.apache.log...

2019-12-03 20:28:04 572

转载 从入门到精通 - Fayson带你玩转CDH

CDH所有问题点击这里简直完美!!!

2019-12-02 10:24:25 606

转载 如何在Redhat7.4安装CDH6.2

前言公司新到了一批服务器,准备搭建一个专业版的CDH集群,于是和CDH官方要一份中文文档,他们给我发一个:微信公众号的连接我在这里进行一些整理CDH集群角色规划上面是来自官网根据不同的集群规模,分别分配Master Hosts、Utility Hosts、Gateway Hosts、Worker Hosts如何在Redhat7.4安装CDH6.2 (下面的内容全部来自官方给的资料)...

2019-12-02 10:12:37 643

SparkMLlib机器学习(黄美玲和王晓华版两本)

SparkMLlib机器学习黄美玲版和SparkMLlib机器学习实战王晓华版,都带目录,很方便阅读,希望能帮助到大家

2018-10-17

CDH-5.13.1安装文档

亲测CDH-5.13.1,希望能够帮助想要使用CDH的同学,文档中有不懂的可以留言

2018-09-03

高等数学(同济大学出版)上下册(高清,带目录)

学习人工智能、大数据高数是必备的专业技能,同济大学出版的高等数学一直是很多高校指定的专用教材

2018-04-18

Spark快速大数据分析和深入解析Spark内核架构设计与实现原理

有这两本书,的确可以把spark技术研究透彻,真心感谢这两位作者

2018-03-28

java最经典的笔记

这是我见过java总结的很屌的培训机构的老师,感谢阳哥笔记,让人对java基础的知识有了更加深刻的理解

2018-02-08

搜题功能,图片文字识别技术

模仿作业帮、猿题库等含有搜题功能的app,自定义相机,图片识别技术的实现,超级简单

2018-01-03

Dialog的正确使用方式

学会如何正确使用Dialog,以及更规范的Dialog模板,和创建的方式。

2017-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除