大数据
文章平均质量分 79
Bagba
Doctor of Philosophy, machine learning on graphs. ~ 与人分享 是 最好的学习方式。
展开
-
Hibench使用教程
HiBench使用教程原创 2022-02-17 10:51:46 · 676 阅读 · 0 评论 -
大数据生态之开源工具简介
大数据生态之开源工具简介说是搞大数据,其实只能叫做水大数据,也水了两年多了。个人对大数据的理解主要简单地分为两个大方向吧,一个是算法(机器学习,深度学习),另外一个就是开发工具,从hadoop到yarn到hbase,mongoDB,hive,pig,flume,kafka,spark等等。这些东东都一直在接触,但都没有深入,感觉自己就像一个万金油。。。。。另外一个方面,在知乎上看到,什么是大数据工程原创 2016-06-16 19:23:09 · 1754 阅读 · 0 评论 -
大数据 基数估计(Linear Counting,LogLog Counting,HyperLogLog Counting,Adaptive Counting)
基数估计缘起项目中遇到的问题,考虑如下场景:A,B,C,…..N个集合,这里的集合不是严格意义上的集合,只是指一个list,里面有重复元素。然后我要统计这些集合的交集,并集的集合(这里的交集并集为严格意义上的集合,无重复元素)的数量,即先做 inner join 后,再 count(distinct())。这些集合的大小从十万到十亿不等,大概有几百个这样的集合。目前是通过mapreduce来进行计算原创 2016-07-04 17:04:46 · 4875 阅读 · 0 评论 -
hadoop SequenceFile
SequenceFile 简介SequenceFile是hadoop作业中中间序列化传输的格式,其主要作用是压缩空间,以便提高传输速率,因为hadoop任务的速度主要消耗在网络IO和磁盘IO上,减小文件大小当然可以加快速度。SequenceFile的格式几个点:可以看出还是KV格式的,具体的介绍就赘述了,网上和官网上都很多。可以压缩二进制文件hadoop2.x中的SequenceFile包原创 2016-08-27 16:16:48 · 589 阅读 · 0 评论 -
Hadoop源码学习之-----Mapreduce输入流:InputFormat,InputSplit,RecordReader
Mapreduce 输入流abstract class inputSplitabstract class InputFormat:getSplits : split the input files/db/sequecefilescreateRecordReader : return the RecordReader of one of split of splitsFileInputFormat原创 2016-09-14 17:35:15 · 596 阅读 · 0 评论 -
kafka源码分析(持续更新)
我觉得我是很难,而且没必要写的比这系列关于kafka的文章好了: http://www.infoq.com/cn/articles/kafka-analysis-part-1 设计原理基本概念看上面这篇就行了,不过源码也是非常重要的,如果你要深度开发kafka的产品的话。我会持续更新源码阅读的心得或者是笔记。Kafka.scalaKafkaServer,依次启动各个模块quotaManagers原创 2017-01-10 16:18:51 · 3051 阅读 · 0 评论 -
分布式缓存
由于工作中要开发一个分布式限速服务,方案中会用到分布式缓存或者分布式in-memory的key-value存储,这是一个比较大的方向,所以单独在这里开一个专题(专业给自己挖坑,慢慢填吧。。)分布式缓存主要考虑几个问题数据均衡性分区容忍行扩缩容数据均衡性取决于分区算法分区算法需要满足:平横性:主要是数据的平均分布,及当集群中某一个缓存服务失效,数据也能够正常分布单调性:当数据...原创 2019-01-02 15:49:20 · 214 阅读 · 0 评论