Spark解析十年的大数据工程师在美团的实践

美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支持。大数据处理渗透到了美团各业务线的各种应用场景,选择合适、高效的数据处理引擎能够大大提高数据生产的效率,进...

2018-09-27 19:24:09

阅读数 157

评论数 0

搭建spark遇到问题的解决

一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作归根结底是对RDD的操作 4.部署Spark任务,不用拷贝整个架包,只需拷贝被修改的文件,然后在目...

2018-09-27 19:14:05

阅读数 130

评论数 0

spark性能优化指南

如何定位导致数据倾斜的代码 数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时,可能...

2018-09-26 17:45:34

阅读数 22

评论数 0

spark性能优化指南

原则六:使用高性能的算子 除了shuffle相关的算子有优化原则之外,其他的算子也都有着相应的优化原则。 使用reduceByKey/aggregateByKey替代groupByKey 详情见“原则五:使用map-side预聚合的shuffle操作”。 使用mapPartitions替代普通ma...

2018-09-26 15:48:05

阅读数 20

评论数 0

spark性能优化指南

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包...

2018-09-26 15:46:59

阅读数 29

评论数 0

0基础搭建Hadoop大数据处理-编程

Hadoop的编程可以是在Linux环境或Winows环境中,在此以Windows环境为示例,以Eclipse工具为主(也可以用IDEA)。网上也有很多开发的文章,在此也参考他们的内容只作简单的介绍和要点总结。 Hadoop是一个强大的并行框架,它允许任务在其分布式集群上并行处理。但是编写、调试H...

2018-09-25 21:23:02

阅读数 29

评论数 0

Hadoop原理与集群搭建笔记

一、理论部分知识 1、HDFS :Hadoop DIstributed File System简写。 易于扩展的分布式文件系统 运行在大量普通廉价机器上(成本低) ,提供容错的机制(可靠性高) 2、HDFS优点: 高容错性 适合大数据批处理(移动计算不移动数据、数据位置暴露给计算框架、存储量大、百...

2018-09-25 15:18:31

阅读数 27

评论数 0

一篇文章让你读懂SQL数据库和Hadoop

SQL(结构化查询语言)是针对结构化数据设计的,而Hadoop最初的许多应用针对的是文本这种非结构化数据。 主要区别如下: 用向外扩展代替向上扩展 Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至数百台计算机。而不是专注于提高单台服务器的性能 用键/值对代替关系表...

2018-09-03 17:26:08

阅读数 412

评论数 0

一篇文章让你读懂,分布式系统与Hadoop

Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS...

2018-09-03 17:04:35

阅读数 81

评论数 0

看看中国计算机学会理事浅谈ACID、BASE和CAP的关系

1.ACID ACID,是指在数据库管理系统(DBMS)中,事务(transaction)所具有的四个特性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation,又称独立性)、持久性(Durability)。 在数据库系统中,一个事务是指:由一系列数据库操...

2018-09-03 16:21:35

阅读数 40

评论数 0

ETL的详细解释定义

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为DW的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL...

2018-09-03 15:44:03

阅读数 140

评论数 0

从关系型数据库看NoSQL的四大特点

我们提到NoSQL数据库,总是会提到它的一个重要特性——性能好,但为什么呢?关系型数据库经过几十年的发展,各种 优化工作已经做得很深了,NoSQL系统一般都是吸收关系型数据库的技术,那么,到底是什么因素束缚了关系型数据库的 性能呢?NoSQL数据库到底有哪些优势?我们从系统设计的角度来了解一下No...

2018-09-03 15:29:25

阅读数 178

评论数 0

常用的NoSQL数据库

NoSQL数据库发展迅猛,据说现在已经有上百种NoSQL数据库了,下面来了解下常见的一些NoSQL数据库 先来看张表,了解下典型的NoSQL数据库的分类 临时性键值存储永久性键值存储面向文档的数据库面向列的数据库 常用的NoSQL数据库 Memcached 挥发性(临时性)的键值存储 ...

2018-09-01 17:13:57

阅读数 25

评论数 0

Spark与Hadoop MR兄弟两的不同

在大数据相关的面试中,经常会遇到了一个经典的问题:请说说Spark与Hadoop MR的异同? 虽然你有可能过关了,但是由于现场发挥的原因,看了这篇文章你还可以答得更好,就在这里总结一下这个问题。 首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了...

2018-09-01 09:55:09

阅读数 204

评论数 0

零基础小白入手hadoop学习路线和教程分享

这里写图片描述Hadoop技术本身并不是新技术,而是互联网时代成就了它,互联网产生了大量的数据,传统的服务器解决方案成本太高,Hadoop分布式处理技术可以解决这个问题,随着BAT等知名公司的成功案例,越来越多互联网公司也都开始使用。Hadoop是云计算的基础。而绝大部分的云计算中的分布式存储和计...

2018-08-31 17:32:43

阅读数 62

评论数 0

2018国内最常用的大数据业务监控项目方案流程解析

根据监控对象的不同,监控系统可以分为系统监控、应用监控和业务监控。“实时交易监控系统”属于业务监控,主要用于监控客户的购买行为及订单情况,一般用于支持公司的日常运营决策和重大营销活动,如“双11”、“双12”及“双旦”等,对数据的实时性要求较高。“实时交易监控系统”对数据的一般处理流程:实时捕获数...

2018-08-29 14:48:32

阅读数 1776

评论数 1

如何从普通程序员之中脱颖而出

现在的社会中想成为老板的人很多,做老板的人也很多,成功的老板却是很少?有很多人问了自己也问了别人怎么才能成为老板啊,怎么做好一个老板啊? 做好一个老板简不简单?我的回答是简单 1.学会控制情绪 现在存在一个普遍的现象,也是人性的表现 。现在员工作为一个老板你对他百般的好他不记得,但你骂他一次...

2018-08-28 19:43:55

阅读数 116

评论数 0

十一点面试必备技巧 职场必备

首先你得有专业知识的铺垫 能胜任工作的自信 一、我走过的路 大学毕业前,参加过一、我走过的路 大学毕业前,参加过数十场校园招聘。那段时间我也成为了校园里小小的名人,被戏称为“面霸”:面过多家世界五百强,如索尼、Intel等;国内的知名企业,像华为、中兴、中国航天、中核等。都是五六轮面试的那种...

2018-08-23 17:42:22

阅读数 89

评论数 0

从4.5K到40K,我的大数据开发生涯,都经历了什么。。。

不知不觉已经从事大数据开发四年了,从刚刚带着雄心壮志硬生生闯入社会的少年,到现在心态平稳,处事不惊的奔三大叔,四年时间教会了我很多很多。 本篇 Chat 分享了我五年(含大四)中,从 6k 到 25k 的职业经历,供大家借鉴参考自己的职业规划,主要涉及到以下内容: 是否选择学校合作的培训机构?...

2018-08-21 17:42:30

阅读数 73

评论数 0

大数据开发薪资水平到底怎样

大数据时代来临,如此火爆的职业,吸引了大批有志青年的加入,再加入之前,你对大数据都了解吗?他的行业前景如何?薪资水平如何? 1. 大数据行业分析 作为中国官方重点扶持的战略性新兴产业,大数据产业已逐步从概念走向落地“大数据”和“虚拟化”两大热门领域得到了广泛关注和重视,90%企业都在实用大数据...

2018-08-18 09:41:01

阅读数 375

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭