自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 hive之行列转换

同行不同列的连接 concat(连接一,'连接符',连接二,'连接符','连接三'.......) 可以把一行中多个字段相连接并生成一个新字段 concat_ws('连接符',连接一,连接二.........) 作用于concat()类似,但更加方便 同列不同行的连接 collect_set(字段一,字段二) 把一列中的某些字段放在一个字段中 行转列 explode(字段) 把一个map或array类型的字段炸开,拆开成多行 lateral view explode(字段名)

2020-12-28 14:51:11 131

原创 MapReduce输出到Mysql,使用DBOutputFormat实现

项目场景: 在写MapReduce程序的时候,不时也会遇到将需要程序结果保存到Mysql这种情况 注意点: hadoop自带将数据到村子Mysql的OutPutFormat,及DBOutputFormat 使用DBOutputFormat时需要注意几个点: 1、需要实现一个实体类,这个实体类部分映射数据库中要查询的表的字段。 2、实体类需要实现Writable与DBWritable两个接口,DBWritable的实现类负责查询与写入,Writable的实现类负责序列化输出。 3、参数索引与列索引要一致。

2020-11-19 20:20:15 511

原创 MapReduce使用PathFilter进行文件过滤

前言 在使用MapReduce对数据进行处理的过程中,难免会遇到在一个文件夹中避开某类文件的问题,在本篇博客中我们使用PathFilter路径过滤器过滤掉*.txt文件。这里使用词频统计来做一个简单的小例子. 一、定义Mapper类 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.had

2020-11-15 14:39:03 600

原创 linux安装conda时出现的问题

项目场景: Linux使用Miniconda或者Anaconda创建环境时网络报错: 问题描述: CondaHTTPError: HTTP 000 CONNECTION FAILED for url https://mirrors.tuna.tsinghurrent_repodata.json Elapsed: - An HTTP error occurred when trying to retrieve this URL. HTTP errors are often intermittent, and

2020-10-08 21:00:53 759

原创 pyspark + kafka jar包下载:

pyspark + kafka 资料下载: org.apache.spark:spark-streaming-kafka-0-8-assembly_2.11 https://search.maven.org/artifact/org.apache.spark/spark-streaming-kafka-0-8-assembly_2.11

2020-09-14 20:19:38 551

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除