2019年02月_菜丸子

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月 01月

原创【算法】算法基础

一不可变集合

2019-02-21 22:39:46 18493

原创【网络】OSINT

一前言1.hive 把sql转化为mapreduce缺点:底层是mapreduce,效率不高,后来做了改进，可以跑在tez,spark,mapreduce上面2.sharkhive跑在spark上面shark缺点：hive hql解析,逻辑执行计划生成依赖于hive的，仅仅把物理执行从mr改成spark。而且spark是基于线程的，所以会有线程安全问题。shark 终止以后，产生了两...

2019-02-19 00:02:52 813

原创【操作系统之哲学导论】其它

一 fetch task开启fetch task如果没有函数和排序就不会触发mapreduce把hive.fetch.task.conversion设置成more二本地模式大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情...

2019-02-12 17:31:00 215

原创【操作系统之哲学导论】文件原理篇

开源搜索引擎，采用JAVA编写，提供restful api,支持横向扩展和PB级搜索。场景：海量搜索，每天有海量日志，比如几百TB，可以用ES站内搜索引擎数据仓库，可以存储PB级别的结构化和非结构化数据ES版本1.x .2x 5.x尽量选择最新的安装：json结构head插件安装，可以提供web界面ES集群安装索引:含有相同属性的文档集合，相当于sql中的一个数据库类型:...

2019-02-11 23:25:09 291

原创【操作系统之哲学导论】内存原理篇

一基础知识hive提供了一个Hive查询语言的SQL方言，来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为mapreduce任务(job)hive最适合静态数据分析，不需要快速响应给出结果，而且数据本身不会频繁变化。hive不支持记录级别的更新。不支持事务，延时比较严重。hive替代品pig不是基于SQL的，是一种数据流语言，而不是一种查询语言。pig常用于ET...

2019-02-08 23:58:55 341

原创【操作系统之哲学导论】进程/线程管理篇

hadoop的功能和优势1.开源2.分布式存储3.分布式计算核心hdfs 分布式文件系统mapreduce 并行处理框架可以PB级数据处理。优势1.高扩展2.低成本3.成熟的生态圈hadoop生态系统和版本比如hive ,降低hadoop门槛。hbase放弃事务特性。实时的。hdfs:block:所有文件切分成相同大小的块（默认64MB）namenode:存放文件...

2019-02-04 10:02:26 331

TA关注的人

屎蛋的铲屎官

原创【算法】算法基础

原创【网络】OSINT

原创【操作系统之哲学导论】其它

原创【操作系统之哲学导论】文件原理篇

原创【操作系统之哲学导论】内存原理篇

原创【操作系统之哲学导论】进程/线程管理篇

空空如也

idea右边没有gradle窗口

java生成json算是序列化吗

使用fastJson或者jprotobuf还需要加serialVersionUID吗

读写锁ReentrantReadWriteLock锁降级的意义是什么啊

原创 【算法】算法基础

原创 【网络】OSINT

原创 【操作系统之哲学导论】其它

原创 【操作系统之哲学导论】文件原理篇

原创 【操作系统之哲学导论】内存原理篇

原创 【操作系统之哲学导论】进程/线程管理篇

空空如也

idea右边没有gradle窗口

java生成json算是序列化吗

使用fastJson或者jprotobuf还需要加serialVersionUID吗

读写锁ReentrantReadWriteLock锁降级的意义是什么啊

原创【算法】算法基础

原创【网络】OSINT

原创【操作系统之哲学导论】其它

原创【操作系统之哲学导论】文件原理篇

原创【操作系统之哲学导论】内存原理篇

原创【操作系统之哲学导论】进程/线程管理篇