自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (4)
  • 收藏
  • 关注

原创 【算法】算法基础

一 不可变集合

2019-02-21 22:39:46 18493

原创 【网络】OSINT

一 前言1.hive 把sql转化为mapreduce缺点:底层是mapreduce,效率不高,后来做了改进,可以跑在tez,spark,mapreduce上面2.sharkhive跑在spark上面shark缺点:hive hql解析,逻辑执行计划生成依赖于hive的,仅仅把物理执行从mr改成spark。而且spark是基于线程的,所以会有线程安全问题。shark 终止以后,产生了两...

2019-02-19 00:02:52 813

原创 【操作系统之哲学导论】其它

一 fetch task开启fetch task如果没有函数和排序就不会触发mapreduce把hive.fetch.task.conversion设置成more二 本地模式大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情...

2019-02-12 17:31:00 215

原创 【操作系统之哲学导论】文件原理篇

开源搜索引擎,采用JAVA编写,提供restful api,支持横向扩展和PB级搜索。场景:海量搜索,每天有海量日志,比如几百TB,可以用ES站内搜索引擎数据仓库,可以存储PB级别的结构化和非结构化数据ES版本1.x .2x 5.x尽量选择最新的安装:json结构head插件安装,可以提供web界面ES集群安装索引:含有相同属性的文档集合,相当于sql中的一个数据库类型:...

2019-02-11 23:25:09 291

原创 【操作系统之哲学导论】内存原理篇

一 基础知识hive提供了一个Hive查询语言的SQL方言,来查询存储在hadoop集群中的数据。hive可以将大多数的查询转换为mapreduce任务(job)hive最适合静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。hive不支持记录级别的更新。不支持事务,延时比较严重。hive替代品pig不是基于SQL的,是一种数据流语言,而不是一种查询语言。pig常用于ET...

2019-02-08 23:58:55 341

原创 【操作系统之哲学导论】进程/线程管理篇

hadoop的功能和优势1.开源2.分布式存储3.分布式计算核心hdfs 分布式文件系统mapreduce 并行处理框架可以PB级数据处理。优势1.高扩展2.低成本3.成熟的生态圈hadoop生态系统和版本比如hive ,降低hadoop门槛。hbase放弃事务特性。实时的。hdfs:block:所有文件切分成相同大小的块(默认64MB)namenode:存放文件...

2019-02-04 10:02:26 331

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除