大数据
会飞的鱼_于
这个作者很懒,什么都没留下…
展开
-
hive真实开发数据练习
1、该数据集log.log是某APP用户日志,请你使用SQL对数据进行预处理清洗提取数据百度云链接:https://pan.baidu.com/s/1Rh1w99h1D4gr6Zo1ytNtOg提取码:13pg1 该数据集log.log是某APP用户日志,请你使用SQL对数据进行预处理清洗提取。1.1 原始数据预处理规则一:如果没有数据中没有uid、platform、app_version、pid四个字段同时出现的数据,请过滤掉规则二:将数据中字段locationcity的值为0的全部替换为1原创 2020-06-02 22:52:55 · 426 阅读 · 0 评论 -
hdfs为什么不适合存储小文件?block块为什么设置为128MB?
hdfs为什么不适合存储小文件?小文件多小?一般小于128mb1、小文件过多,会过多占用namenode的内存,并浪费block。文件的元数据(包括文件被分成了哪些blocks,每个block存储在哪些服务器的哪个block块上),都是存储在namenode上的。HDFS的每个文件、目录、数据块占用150B,因此300M内存情况下,只能存储不超过300M/150=2M个文件/目录/数据块的元数据dataNode会向NameNode发送两种类型的报告:增量报告和全量报告。增量报告是当dataN原创 2020-06-02 21:28:40 · 1708 阅读 · 0 评论