big-data
coding-now
https://coding-now.github.io/link.html
展开
-
从数据仓库到数据湖—浅谈数据架构演进
文章目录从数据仓库到数据湖——浅谈数据架构演进martin-flower-about-Datalake数据仓库的架构与设计数据库–>数据仓库–>数据湖的架构演变,反映的是数据需求变更了解最近技术发展动态,记录一下相关知识点,跟上技术发展的步伐。上半年参加系统分析师考试,论文部分有个论题 是关于AIOPS的。我再想,实际工作中,我们连DEVOPS流程还没做好呢,AIOPS已经...原创 2019-11-12 10:15:44 · 759 阅读 · 0 评论 -
Protobuf的使用和原理
文章目录使用举例特性说明应用场景注意事项使用举例Protobuf的使用和原理特性说明语言无关性、序列化、反序列化性能号向后兼容性好编程模式友好、良好的文档和示例动态编译,Importer应用场景注意事项...原创 2019-10-16 15:38:55 · 318 阅读 · 0 评论 -
kafka数据定时导入hive便于后续做数据清洗
文章目录问题背景解决过程实现效果注意事项问题背景kafka数据定时导入到hive,后续做数据清洗:flume,confulent都需要单独部署服务,比较繁琐。调查其他可选方案,参考以下文章:参考资料综合比较,camus 简单,比较方便接入。主要分两步:1、采用mapreduce过程处理数据从kafka导入hadoop2、hadoop数据接入hive管理。解决过程1、下载源码,本地构...原创 2019-10-16 15:37:01 · 929 阅读 · 0 评论 -
MPP架构是什么?看这一篇就行了。。
文章目录MPP是什么SMP- Symmetric Multi-Processor 对称多处理器结构NUMA -Non-Uniform Memory Access 非一致存储访问结构MPP -Massive-Parallel Processing 海量并行处理架构MPP DB学习笔记:大数据架构详解:从数据获取到深度学习MPP是什么系统架构层面的服务器分类,如下三类:SMP- Sym...原创 2019-09-02 14:14:43 · 28147 阅读 · 0 评论 -
大数据基础-数据存储组件介绍
文章目录目标分类- 列式存储- 行式存储- 常见存储格式- 典型开源应用- Hive支持的格式- Impala支持的格式- HBase支持的格式-应用场景-实时数据平台目标分类WOS(Write Optimized Store)采⽤用 kudu 表⽀持实时导⼊ROS(Read Optimized Store)采⽤ Parquet 列式存储,采用合理的分区和文件⼤小,最⼤化的减少扫描的...原创 2019-09-02 13:36:43 · 3488 阅读 · 0 评论 -
Kafka基础知识总结笔记
kafka原理和实践-vivo原创 2019-08-28 16:01:41 · 274 阅读 · 0 评论 -
HBase资料汇总
数据模型MasterRegionServerRegionColumn FamilyRegionServer Group部署架构基础组件、核心概念介绍如何合理的设计HBase RowKey?原创 2019-08-20 15:59:19 · 325 阅读 · 0 评论 -
Eleastic-Search使用入门介绍
记录es学习应用的过程和相关总结。2015年左右自己摸索应用在产线应用日志收集分析、报警。整理的分享大纲如上图。部署架构https://www.elastic.co/guide/en/logstash/current/deploying-and-scaling.html基础概念模型index 索引–数据库Primary-shard–lucene实例Replica-shar...原创 2019-07-12 16:01:06 · 3117 阅读 · 0 评论 -
hive应用基础知识备忘
hadoop-MR层面local-mode: hive.exec.mode.local.auto=trueparalell-execution: hive.exec.parallel=truestrict-mode: hive.mapred.mode=strictjvm-reuse: mapred.job.reuse.jvm.num.tasks=-1hive-execute-e...原创 2019-07-02 16:46:18 · 239 阅读 · 0 评论 -
hive应用-离线数据仓库分层模型
数据仓库-四层模型HIVE应用-模型分层分布式任务调度传统数据仓库分层模型介绍hive原理介绍hive组件架构原创 2019-07-02 15:38:51 · 1816 阅读 · 0 评论 -
hive基础-数据模型
Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。(1)表table:一个表就是hdfs中的一个目录(2)区Partition:表内的一个区就是表的目录下的一个子目录(3)桶Bucket:如果有分区,那么桶就是区下的一个单位,如果表内没有区,那么桶直接就是表下的单位,...原创 2019-07-02 15:22:20 · 641 阅读 · 0 评论 -
hive基础-组件介绍
组件架构客户端组件Hive-cli,JDBC/ODBCToad or SQuirreLHCatalog元数据管理组件,主要作用如下• Provides a common schema environment for multiple tools• Allows for connectors to tools to read data from and write data ...原创 2019-07-02 14:35:06 · 1170 阅读 · 0 评论 -
elk安装配置-备忘
客户端 filebeat,logstash 安装脚本cd /usr/local sudo chown -R deploy:forte elk/ sudo chown -R deploy:forte beat sudo rm -R beatsudo mv /usr/local/elk-agent.tar /tmp/ sudo chmod a+rw /tmp/*.log sudo chown原创 2017-04-25 12:12:30 · 518 阅读 · 0 评论 -
storm学习-基本概念及入门示例
Components of a Storm clusternimbus: a daemon runs onmaster node,responsible for distributing code around the cluster, assigning tasks to machines, and monitoring for failures.zookeeper...转载 2015-11-17 14:19:59 · 698 阅读 · 1 评论