大宝大话大数据
文章平均质量分 79
北邮郭大宝
这个作者很懒,什么都没留下…
展开
-
大宝大话大数据(一) ——大数据的整体框架
学习和使用大数据工具已经一年多了,经历了看书自学,实习实践,理解原理这几个重要阶段的铺垫后,自我感觉算是对大数据开发初步入门了。也想借此机会对所学内容做一个总结和归纳。方便自己查阅的同时,也希望帮助到需要的同学。全部内容会更新在我的github上,手搜https://github.com/tygxy。本系列的写作安排主要围绕自己的知识体系展开,主要涉及三个方面的内容:大数据整体概述和学习方法、...原创 2018-07-27 16:04:48 · 1138 阅读 · 2 评论 -
大宝大话大数据(二)——大数据的学习路径和方法
本文将对自己学习大数据的路径和方法做一个回顾,有意入门大数据开发的同学可以参阅我的学习过程,结合自己的实际情况,做一些优化和调整。以下内容都是我的一家之言,仅供参考。首先说下学习方法的问题。我刚开始学大数据的时候,还没有老师和学长给我理清大数据的整体架构。我还真是盲人摸象,今天学学MapReduce,明天看看Spark。当时上刘军老师《海量数据处理》这门课的时候,老师很好,很认真讲了Had...原创 2018-07-27 16:06:13 · 456 阅读 · 2 评论 -
FastJson使用范例(Java、Scala版)
0. 目录1.FastJson简介2.FastJson三个核心类3.Maven4.Java API反序列化 反序列化一个简单Json字符串 反序列化一个简单JSON字符串成Java对象组 反序列化一个复杂的JSON字符串 序列化 序列化和反序列化日期 JsonObject的一些操作 jsonArray的一些操作5.Scala API反序列化 dem...原创 2018-08-03 12:19:00 · 2357 阅读 · 0 评论 -
HBase原理总结
在总结Spark读写HBase的同时,也顺便回顾了一下HBase的原理,同样做个简单的记录。事实上,相关的总结网上超级多,写的已经很到位了。本文一些内容会直接摘取相关参考资料,对原文作者表示感谢。互联网的面试一般问的都比较细,尤其是简历里提到过的一些大数据组件,都会问问底层原理,体系结构,有什么好的设计思想,甚至是源码等。所以在能调用API实现开发功能之后,也需要花一点时间对组件的原理至少是了...原创 2018-08-27 10:08:50 · 828 阅读 · 0 评论 -
StreamSets使用指南
最近在调研Streamsets,照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少,做个记录。1. 简介Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有: 可视化界面操作,不写代码完成数据的采集和流转 内置监控,可是实时查看数据流传输的基...原创 2018-08-20 09:38:00 · 10820 阅读 · 10 评论 -
Spark读写HBase实践
Spark经常会读写一些外部数据源,常见的有HDFS、HBase、JDBC、Redis、Kafka等。这些都是Spark的常见操作,做一个简单的Demo总结,方便后续开发查阅。1.1 maven依赖需要引入Hadoop和HBase的相关依赖,版本信息根据实际情况确定。 <properties> <hadoop.version>2.6.0-cdh5.7....原创 2018-08-23 21:38:11 · 696 阅读 · 0 评论 -
Spark Streaming + Kafka +Hbase项目实战
同学们在学习Spark Steaming的过程中,可能缺乏一个练手的项目,这次通过一个有实际背景的小项目,把学过的Spark Steaming、Hbase、Kafka都串起来。1. 项目介绍1.1 项目流程Spark Streaming读取kafka数据源发来的json格式的数据流,在批次内完成数据的清洗和过滤,再从HBase读取补充数据,拼接成新的json字符串写进下游kafka。...原创 2018-11-20 10:23:17 · 994 阅读 · 0 评论