自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 hive真实开发数据练习

1、该数据集log.log是某APP用户日志,请你使用SQL对数据进行预处理清洗提取数据百度云链接:https://pan.baidu.com/s/1Rh1w99h1D4gr6Zo1ytNtOg提取码:13pg1 该数据集log.log是某APP用户日志,请你使用SQL对数据进行预处理清洗提取。1.1 原始数据预处理规则一:如果没有数据中没有uid、platform、app_version、pid四个字段同时出现的数据,请过滤掉规则二:将数据中字段locationcity的值为0的全部替换为1

2020-06-02 22:52:55 457

原创 hdfs为什么不适合存储小文件?block块为什么设置为128MB?

hdfs为什么不适合存储小文件?小文件多小?一般小于128mb1、小文件过多,会过多占用namenode的内存,并浪费block。文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的。HDFS的每个文件、目录、数据块占用150B,因此300M内存情况下,只能存储不超过300M/150=2M个文件/目录/数据块的元数据dataNode会向NameNode发送两种类型的报告:增量报告和全量报告。增量报告是当dataN

2020-06-02 21:28:40 1743

原创 数据中台

数据中台什么是数据中台数据中台的定位数据中台的价值数据中台的架构数据中台的实施数据中台与数据仓库数据中心架构基于企业级CDH版本数据中心集群平台–集群监控,预警,开发,任务调度数据模型:设计规范数据中台实现过程...

2020-05-25 20:55:42 491

原创 hbase-MR任务-将hdfs导入hbase-NoClassDefFoundError

报错Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/TableReducer找不到指:定jar原因:执行hadoop的任务,但是需要用到hbase的包,而Hadoop中没有hbase的包解决1:将hbase用到的包导入到每台节点的hadoop...

2020-04-25 13:18:04 268 2

原创 spark-sh xxx.jar命令报错Input path does not exist

报错:Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://master:9000/daas/motl/ods/od s_ddr/day_id=20180503一:hdfs中确实没有这个文件,重新上传文件或修改路径即可二:hdf...

2020-04-25 12:00:15 647

原创 hadoop集群与伪分布式的性能对比

hadoop集群与伪分布式的性能对比镜像centos6.5,hadoop-2.6.0,mysql-5.4.0,hive-1.2.1集群配置:master 4g1核,2个处理器,子节点(2个):1g1核,1个处理器伪分布式:4g1核,2个处理器使用hql测试:数据:hive> select *from course;01 语文 0202 数学 0103 英语 03hive...

2019-12-28 17:08:07 608

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除