自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Name node is in safe mode解决方法

1、问题Cannot create directory /directory. Name node is in safe mode.2、原因在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修

2021-03-16 10:02:15 2825

原创 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

1、问题Error: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask (state=08S01,code=2)2、原因hive启动堆栈内存不足3、解决方法(1)在hadoop下的etc/hadoop中的配置文件hadoop-env.sh中修改如下配置:修改为:export HADOOP_CLIENT

2021-03-16 09:28:25 1965 1

原创 Error running ‘类名’: Command line is too long. Shorten command line for 类名 or also for Application...

Error running ‘类名’: Command line is too long. Shorten command line for 类名 or also for Application default configuration.1、问题Error running ‘类名’: Command line is too long. Shorten command line for 类名 or also for Application default configuration.2、解决方法(1

2021-03-10 21:01:24 278

原创 Hive SQL 影评案例练习

一、数据准备1、users.dat数据格式:2::M::56::16::70072,数据条数:共有6040条数据对应字段:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String字段解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式:2::Jumanji (1995)::Adventure|Children’s|Fantasy,数据条数:共有3883条数据对应字段:MovieI

2020-11-06 22:25:47 1129

原创 Hive经典案例:求出数学成绩大于语文成绩学生的信息

一、数据准备有如下数据,学生id,课程,分数1,yuwen,431,shuxue,552,yuwen,772,shuxue,883,yuwen,983,shuxue,65二、需求分析1、创建表create table requirement( sid int, course string, score int)row format delimited fields terminated by ',';2、上传数据load data local inpath '/usr/m

2020-11-06 11:43:48 1318

原创 Hive经典案例:求出每个用户到当月为止的最大当月访问次数和累积到当月的总访问次数

1、数据准备有如下数据:用户名,月份,访问次数A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,12、需求分析(1)创建表create table requirement( nam

2020-11-06 11:05:57 1057

原创 SparkRDD算子案例:统计出每一个省份每个广告被点击数量排行的Top3

SparkRDD算子案例:统计出每一个省份每个广告被点击数量排行的Top31、数据准备agent.log:时间戳,省份,城市,用户,广告,中间字段使用空格分隔。2、需求分析方法一:(1)用空格分割每一行的数据,需要的数据是省份id和广告id(2)将省份id和广告id和次数1组成键值对,通过算子map组合成((省份id,广告id),1)(3)计算相同key的总和,使用算子reduceByKey将相同key的值聚合到一起,在shuffle前有combine操作(4)用map将((省份id,广告i

2020-10-27 18:14:13 3842

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除