大数据
文章平均质量分 73
竖琴手
兴趣使然的程序员,我变秃了也变强了
展开
-
Harper的大数据漫谈(2): 数据采集
Harper的大数据漫谈前言Harper的大数据漫谈历史文章数据采集埋点数据采集与业务处理数据采集系统的设计附录OLTP与OLAP前言这是漫谈系列的第二篇文章了, 这几天看了一些网上其他人写的关于大数据的文章, 感觉要不就是在分析大数据的产业和应用, 要不就是在具体的讲某种技术或者分析某个问题, 动辄就是大数据4v和Hadoop. 这些文章可能写的很好, 讲了很多概念, 我在当初入门的时候也看过一些, 但我个人认为对我的帮助比较有限. 因为这些文章要不就过于理论, 要不就过于具体. 因此我希望自己写的原创 2021-07-11 01:01:04 · 313 阅读 · 0 评论 -
Harper的大数据漫谈(1):什么是大数据
Harper的大数据漫谈前言: 关于Harper的大数据漫谈概述: 什么是大数据前言: 关于Harper的大数据漫谈回顾一下, 自2013年毕业至今已经8年了, 其中前三年在中国联通做通信, 之后五年转战互联网公司从事大数据行业. 很喜欢这个方向, 也积累了一些心得. 最近在帮组内的实习生入门, 正好把自己的思考记录下来, 或许能帮助更多的人, 于是重新捡起了技术博客, 发挥自己意识流写作的特点, 利用工作之余的碎片时间想到哪写到哪, 哈哈????由于写的都是个人的理解, 所以难免有错误, 希望大家指原创 2021-07-02 22:50:54 · 424 阅读 · 4 评论 -
Druid评测
Druid 评测最近组里申请了三台机器对Druid进行测试,这里记录一下过程,并对Druid的表现做一下评测环境三台机器 - 磁盘:SATA盘 4T - CPU:24核 - 内存:128G - 系统:Red Hat Enterprise Linux 7.3 - Zookeeper、HDFS、MySQL都用的已有的环境三台机器名称用 t214、t218、t219代替.原创 2017-05-26 16:55:05 · 4378 阅读 · 3 评论 -
Hadoop RPC流程
最近开始看Hadoop源码,本来想对照着《Hadoop技术内幕》看的,但是发现那本书对应的Hadoop版本太老了,还是基于1.x的,构建工具用的Ant,所以没有完全对照书看。目前Hadoop最新的stable版本为2.8.0-RC1,本文以及之后的Hadoop源码相关的博文都以这个版本为基础。另外写的可能会糙一些。原创 2017-06-28 16:58:38 · 565 阅读 · 0 评论 -
Protobuf与Avro的序列化性能测试
Avro与Protobuf性能对比原创 2017-08-23 18:33:44 · 3988 阅读 · 0 评论 -
Hive中的 group by position与order by position
在写SQL的时候,如果group by的column 比较复杂,有的数据库中可以写成 group by position的形式,如:SELECT CASE WHEN a.f1=1 THEN 'a' WHEN a.f1=2 THEN 'b' ELSE c END AS col1, sum(a.f2) AS col2FROM aGROUP BY 1;Hive中可以通过设置...原创 2018-01-03 13:41:40 · 2456 阅读 · 0 评论