大数据
少女,你的代码掉了
头秃少女的日常思考
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
k8s资源类型
集群资源分类名称空间级别:各个命名空间之间是隔离的集群级别:资源被定义后在全集群都可以被看见元数据型:不属于名称空间级别和集群级别,通过某些指标进行操作(比如分析系统的cpu指标)名称空间级别下资源工作负载型资源: Pod、ReplicaSet、Deployment、StatefulSet、DaemonSet、Job\CronJob服务发现型以及负载均衡资源: Service、Ingress配置与存储资源:Volume、CSI(容器存储接口)特殊类型的存储卷:ConfigMap(当配置中原创 2020-10-09 18:50:53 · 932 阅读 · 0 评论 -
mapreduce的内部核心的工作机制
mapreduce框架的工作机制划分输入切片:Job客户端负责划分扫描输入目录中的所有文件遍历每一个文件按照128规格划分范围生成arrayList序列化程job.split文件根据job.split知道创建几个mapTask ,明确每个mapTask会处理某个文件某一部分的内容Map程序的启动过程TextInputFormat类:文本文件类型的读取工具类。mapTask会调用TextInputFormat类得到一个LineRecordReader类调用next方法从in原创 2020-09-30 13:32:25 · 156 阅读 · 0 评论 -
如何使用mr程序统计数量前几大数据样本?
一次mr程序的执行流程数据输入到map程序做拆解的处理生成kvreduce会对数据做统计reduce程序执行完毕之后会调用cleanup程序一个reduce程序在reduce的过程中可以将统计的结果放在hashmap当中,然后在最后reduce处理完毕之后调用cleanup的过程中对所有的hashmap进行统计排序。因为每次reduce调用之后都回调用cleanup程序,所以如果想到的得到唯一的结果,就只能使用一个reduce程序。缺点:实现是可以实现这个功能,但是会失去分布式的意义,其次用原创 2020-09-29 18:35:18 · 421 阅读 · 0 评论
分享