- 博客(6)
- 问答 (4)
- 收藏
- 关注
原创 【网络】OSINT
一 前言1.hive 把sql转化为mapreduce缺点:底层是mapreduce,效率不高,后来做了改进,可以跑在tez,spark,mapreduce上面2.sharkhive跑在spark上面shark缺点:hive hql解析,逻辑执行计划生成依赖于hive的,仅仅把物理执行从mr改成spark。而且spark是基于线程的,所以会有线程安全问题。shark 终止以后,产生了两...
2019-02-19 00:02:52 813
原创 【操作系统之哲学导论】其它
一 fetch task开启fetch task如果没有函数和排序就不会触发mapreduce把hive.fetch.task.conversion设置成more二 本地模式大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情...
2019-02-12 17:31:00 215
原创 【操作系统之哲学导论】文件原理篇
开源搜索引擎,采用JAVA编写,提供restful api,支持横向扩展和PB级搜索。场景:海量搜索,每天有海量日志,比如几百TB,可以用ES站内搜索引擎数据仓库,可以存储PB级别的结构化和非结构化数据ES版本1.x .2x 5.x尽量选择最新的安装:json结构head插件安装,可以提供web界面ES集群安装索引:含有相同属性的文档集合,相当于sql中的一个数据库类型:...
2019-02-11 23:25:09 291
原创 【操作系统之哲学导论】内存原理篇
一 基础知识hive提供了一个Hive查询语言的SQL方言,来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为mapreduce任务(job)hive最适合静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。hive不支持记录级别的更新。不支持事务,延时比较严重。hive替代品pig不是基于SQL的,是一种数据流语言,而不是一种查询语言。pig常用于ET...
2019-02-08 23:58:55 341
原创 【操作系统之哲学导论】进程/线程管理篇
hadoop的功能和优势1.开源2.分布式存储3.分布式计算核心hdfs 分布式文件系统mapreduce 并行处理框架可以PB级数据处理。优势1.高扩展2.低成本3.成熟的生态圈hadoop生态系统和版本比如hive ,降低hadoop门槛。hbase放弃事务特性。实时的。hdfs:block:所有文件切分成相同大小的块(默认64MB)namenode:存放文件...
2019-02-04 10:02:26 331
空空如也
idea右边没有gradle窗口
2018-06-11
java生成json算是序列化吗
2018-01-23
使用fastJson或者jprotobuf还需要加serialVersionUID吗
2018-01-22
读写锁ReentrantReadWriteLock锁降级的意义是什么啊
2018-01-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人