大数据学习
文章平均质量分 77
Tank_Lo
Never Settle
展开
-
流计算框架 Flink 与 Storm 的性能对比
1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍受关注,具有...原创 2018-07-13 15:48:31 · 231 阅读 · 0 评论 -
如何成为大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。 伴随Sp...转载 2018-12-18 09:53:53 · 210 阅读 · 1 评论 -
大数据工程师面试
技术成熟大数据实践不够大数据大于数据分析大数据人才企业培养的核心技能大数据团队构成 基础平台、应用平台、数据应用(用户画像、BI、用户行为分析)大数据开发工程师 精通各个组件的原理。理解业务的需求,java,scala,hive数据仓库工程师 数据建模,java,hive,python算法工程师 机器学习算法,用户画像,推荐, 100PB 数十万几千个节点...原创 2018-11-08 16:35:35 · 843 阅读 · 0 评论 -
告诉你什么是真正的ETL
架构挑战:1、对现有数据库管理技术的挑战。2、经典数据库技术并没有考虑数据的多类别(variety)、SQL(结构化数据查询语言),在设计的一开始是没有考虑到非结构化数据的存储问题。3、实时性技术的挑战:一般而言,传统数据仓库系统,BI应用,对处理时间的要求并不高。因此这类应用通过建模,运行1-2天获得结果依然没什么问题。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的...原创 2018-11-06 10:00:43 · 408 阅读 · 0 评论 -
大数据技术之 Linux 基础
一、Linux 入门概述 概述 Linux 内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和网络协议。它支持 ...原创 2018-10-26 11:22:40 · 345 阅读 · 0 评论 -
大数据图解
原创 2018-10-25 17:48:03 · 546 阅读 · 0 评论 -
那些深夜还在回工作微信的男士们,你们还好吗?
微信工作群一响,我就想把手机扔掉。所以看到下面这条新闻的时候,我相信很多人的内心都是复杂的。罚一两个老板容易,想让微信不在深夜响起,却是难上加难。因为现实往往比“刻薄老板要求10分钟内回微信”更复杂。在另一头眼巴巴等你回复的,也可能是你的同事,你的客户,他们也在被其他力量逼迫着深夜给你发微信。而你,要么牺牲休息时间,配合他们,要么拒绝回复,落下“工作不积极”“做事不靠谱”的印象。...原创 2018-10-12 11:23:24 · 277 阅读 · 0 评论 -
Flume+Spark+Hive+Spark SQL离线分析系统
前段时间把Scala和Spark一起学习了,所以借此机会在这里做个总结,顺便和大家一起分享一下目前最火的分布式计算技术Spark!当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,Spark Streaming 组件做实时计算,和Kafka等消息系统也有很好的兼容性;Spark Sql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据;还提供了种类丰富的MLl...原创 2018-08-12 22:58:57 · 351 阅读 · 0 评论 -
Hive内置row_number
语法:ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)简单的说row_number()从1开始,为每一条分组记录返回一个数字,这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序,再为降序以后的没条xlh记录返回一个序号。 示例: xlh row_num 1700 1 1500 2 ...转载 2018-07-28 22:33:25 · 1309 阅读 · 0 评论 -
大数据框架学习:从 Hadoop 到 Spark
Hadoop1. Hadoop是什么Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点:部署成本低、扩展方便、编程模型简单。Hadoop 实现了在行业标准的服务器上进行可靠、可缩放的分布式计算,让你能够以较低的预算跟踪数 PB 以上的数据,而不必需要超级计算机和其他昂贵的专门硬件。Hadoop 还能够从单台服务器扩展到数千台计算机,检测和处理应用程序...转载 2018-07-13 16:37:23 · 588 阅读 · 1 评论 -
大数据框架Hadoop主要模块介绍
本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需...转载 2018-07-13 16:28:47 · 3376 阅读 · 0 评论 -
如何通过读代码提升编程能力
那就是去读别人写的代码。读那些你常用的库、编程框架的源代码,读那些你景仰的大牛的源代码,读代码里的测试(测试本身就是一种有效的文档);读代码、改代码、运行代码。其实,所谓写程序,大部分的时间都是花在读代码上,“写”的部分耗时极少;所以把“读”的技能训练好了,是很有好处的。提高编程能力万无一失的办法编注:这篇文章最初于 2010 年 5 月为 Fuel Your Coding 网站而写。...转载 2018-12-25 10:45:38 · 505 阅读 · 0 评论