自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 面试官再问Redis分布式锁如何续期?这篇文章甩 他一脸

一、真实案例二、Redis分布式锁的正确姿势据肥朝了解,很多同学在用分布式锁时,都是直接百度搜索找一个Redis分布式锁工具类就直接用了.关键是该工具类中还充斥着很多System.out.println();等语句.其实Redis分布式锁比较正确的姿势是采用redisson这个客户端工具.具体介绍可以搜索最大的同性交友网站github.三、如何回答首先如果你之前用Redis的分...

2019-07-08 16:51:26 510

转载 10分钟完成Spring Boot 实战

原文:https://www.jianshu.com/p/2c1471869659目前没有系统学习过 Spring 框架,参与工作时,直接参与到了 Spring Boot 项目的开发。目前还比较菜,所以,你要是和我一样,不妨也跳过 Spring 框架的学习,直接学习 Sring Boot。官方文档 的一段介绍:Spring Boot makes it easy to create s...

2019-07-08 14:20:05 534

转载 Spring Boot 整合 Freemarker,50 多行配置是怎么省略掉的?

Spring Boot2 系列教程接近完工,最近进入修修补补阶段。Freemarker 整合貌似还没和大家聊过,因此今天把这个补充上。已经完工的 Spring Boot2 教程,大家可以参考这里:干货|最新版 Spring Boot2.1.5 教程+案例合集Freemarker 简介这是一个相当老牌的开源的免费的模版引擎。通过 Freemarker 模版,我们可以将数据渲染成 HT...

2019-07-05 15:56:04 185

转载 一文看懂分布式架构的前世今生

分布式架构的演进系统架构演化历程-初始阶段架构imageimage初始阶段 的小型系统 应用程序、数据库、文件等所有的资源都在一台服务器上通俗称为LAMP特征:应用程序、数据库、文件等所有的资源都在一台服务器上。描述:通常服务器操作系统使用linux,应用程序使用PHP开发,然后部署在Apache上,数据库使用Mysql,汇集各种免费开源软件以及一台廉价服务器就...

2019-07-04 20:31:44 121

转载 京东服务市场微服务架构和积木式赋能挑战

京东服务市场是为第三方软件服务商和京东开放商家提供的交易服务平台,为第三方服务商赋能,并为其搭建起与商家间交易合作的桥梁。服务市场团队在2018年完成了云平台京东服务市场的交接与POP平台京麦插件市场的系统融合,并承载着京东自营与三方越来越多服务进行商业变现的业务诉求。相对于传统的电商系统,服务市场面对着的是更复杂的业务领域,更灵活多变的交易组合场景,如何让系统具备积木式赋能的能力,通过松耦合...

2019-07-04 14:31:23 161

转载 Spring Cloud微服务架构升级总结

【编者的话】微服务的概念源于 2014 年 3 月 Martin Fowler 所写的一篇文章“Microservices”。文中内容提到:微服务架构是一种架构模式,它提倡将单一应用程序划分成一组小的服务,服务之间互相协调、互相配合,为用户提供最终价值。背景应用系统的架构历史什么是微服务?起源:微服务的概念源于2014年3月Martin Fowler所写的一篇文章“...

2019-07-02 17:32:11 78

转载 Kafka原理你真的知道吗?

原文链接:https://www.jianshu.com/p/a7f7d9973fea1.概述Apache Kafka最早是由LinkedIn开源出来的分布式消息系统,现在是Apache旗下的一个子项目,并且已经成为开源领域应用最广泛的消息系统之一。Kafka社区非常活跃,从0.9版本开始,Kafka的标语已经从“一个高吞吐量,分布式的消息系统”改为"一个分布式流平台"。Kafka和传...

2019-03-06 22:16:14 1093

原创 年薪不到40w的你,在北上广如何生存下来的?

在北上广,年薪不到40W意味着什么?就拿北京来说,简单的几张图来看一下北京的房价到底有多高这是小区的分布密集程度图:以下是所抓取的数据中房租最高的10个小区,Top1的小区每月每平米需要花费622元的租金。也就是说一个10平米的房子,一个月要6222.99的房租:下图是北京各区每平米每月需要花费的租金平均值。为了让大家看得更直观,我又做了个租金价格地理热力图,下图的...

2019-02-28 14:55:09 573

转载 新鲜出炉!阿里大数据工程师面经!

一、数据结构与算法1.二叉树前序、中序、后续遍历方式(递归以及非递归)2.二叉树的深度以及广度遍历方式3.二叉树遍历情况中所有连续节点的最大的值4.求数组所有可能的子数组5.给定一个数,求一个有序数组的两个数的和满足这个数(可以拓展一下变成两个无序的数组)6.求一个数组的第二大值7.大文件(不能加载进内存)的排序问题8.快速排序、归并排序、冒泡排序、选择排序(复杂度...

2019-02-25 22:18:06 740

原创 大数据技术扫盲,你必须会的这些点

引用“中产之路”公号大佬一句话:我85的,大你们很多,职场开窍晚,等明白过来,机会窗口期过了。程序员在22-32岁这10年属于黄金期,没走好,后面基本废了,所以老铁们,年轻的时候多思考,多跟过来人交流。 请点击输入图片描述虽说人生没有白走的路,新的一年来到,会的还是原来的知识,人的身价就摆在那里,无论怎么折腾,也不会拿到更好的offer。所以在年轻还有拼劲的时候多学学知识,寻找自身...

2019-02-22 21:22:11 4279 7

转载 被称为加班号角的星轨,是如何让微博的程序员累死累活的

前段时间,小编在网上看到一个词儿——“星轨”,说是新浪微博衡量服务器抗压能力的新单位,当时我就觉得既形象又有趣,还有些搞笑。先给大家解释一下什么是星轨。一星轨表示一个一线明星出轨所带来的流量,据说微博的服务器现在能同时扛8星轨。也就是说:8个一线明星同一时间爆出出轨的新闻,微博都能扛得住!当然哈,这只是一句调侃的话,用于证明微博服务器的抗压能力已经很强了。其实,微博的程序员小哥...

2019-02-21 14:32:28 341

转载 MapReduce运行原理

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇总”。MapReduce架构先来看一下MapReduce1.0的架构图 上图中的TaskTra...

2019-02-14 22:22:31 108

转载 深入浅出分布式文件存储系统之 Ceph 的实现

一、何为分布式文件文件系统       分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,它的设计是基于客户端/服务器模式。               如上图所示,应用服务器和文件服务器分别存在于网络当中,而这里的网络,可以是统一子网,也可以是不同子网。服务器对文件的存取,均在网络进行...

2019-02-13 11:21:50 618

转载 Hive Query生命周期--钩子函数篇

前言无论Hive Cli还是HiveServer2,一个HQl语句都要经过Driver进行解析和执行,粗略如下图:hive arch|centerDriver处理的流程如下:HQL解析(生成AST语法树) => 语法分析(得到QueryBlock) => 生成逻辑执行计划(Operator) => 逻辑优化(Logical Optimizer Operator...

2019-02-13 11:01:23 637

转载 基于python语言的大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的数据中,那么...

2019-01-26 17:41:23 403

转载 Hive数据仓库与企业级优化

一  数据仓库1 什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。...

2019-01-23 19:59:43 622

转载 基于Hadoop搭建数据分析平台搭建

 企业发展到一定规模都会搭建单独的BI平台来做数据分析,即OLAP(联机分析处理),一般都是基于数据库技术来构建,基本都是单机产品。除了业务数据的相关分析外,互联网企业还会对用户行为进行分析,进一步挖掘潜在价值,这时数据就会膨胀得很厉害,一天的数据量可能会成千万或上亿,对基于数据库的传统数据分析平台的数据存储和分析计算带来了很大挑战。为了应对随着数据量的增长、数据处理性能的可扩展性,许多企业纷...

2019-01-23 17:10:24 606

原创 深入浅出HBase数据库

HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。HBase HMaster负责Region的分配及数据库的创建和删除等操作。ZooKeeper作为HDF...

2019-01-22 21:59:08 306 1

原创 阿里大数据架构师必备技能,你“佩奇”了嘛?

这两天真的是被《啥是佩奇》这支广告片刷屏了。佩奇明明是个喜剧角色,却把所有人都给看哭了!中间的剧情,小孙子一句:“想要佩奇”,结果爷爷就开始了满村子的寻找佩奇,到最后寻找到了小编认为是最好看的佩奇不知道大家看了之后是什么感觉,反正我看了之后的感觉是非常感动了。不过经过几天的发酵,“佩奇”这两个字似乎有了更多的含义了!各种”佩奇“齐出不穷,女人的“佩奇”是什么样的?程序员的“佩奇”是什么...

2019-01-22 17:55:50 228 1

原创 第一次有人把Apache Flink说的这么明白!

Apache Flink(以下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念。Fl...

2019-01-22 17:54:30 3366 2

转载 为什么不推荐成为一名数据科学通才

数据科学家似乎个个都是全才,他们知识面很广,即写的了代码,又分析的了业务,没事还能整个数学模型调调参数。似乎,数据科学家涉及的领域越广,越能突出数据科学这份职业的价值。但是,情况恰恰相反!有着丰富的数据科学经验的SharpestMinds联合创始人Jeremie Harris告诉你,千万不要成为一个数据科学通才!以下是他以第一人称的论述,enjoy我在公司帮新手规划数据科学职业...

2019-01-21 20:22:50 136

转载 一文详解Spark基本架构原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...

2019-01-21 20:19:37 141

转载 一文学会绕过Hive存储和压缩的坑

在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到一些存储和压缩的坑,本文通过科多大数据的武老师整理,分享给大家。大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后,发现集群的文件存储格式为Parquet,一种列式存储引擎,类似的还有ORC。而文件的压缩形式为Snappy。具体的操作形式如下: ...

2019-01-21 20:18:28 166

转载 Spark入门单机版安装和操作本地和HDFS文件

一、Spark单机版安装Spark部署模式主要是四种:Local模式(单机模式,是本文讲的方式,仅供熟悉Spark和scala入门用)、Standalone模式(使用Spark自带的简单集群管理器,计算数据不是特别庞大)、YARN模式(使用YARN作为集群管理器,配合hadoop集群使用)和Mesos模式(使用Mesos作为集群管理器,配合docker)。1.1、Spark的基础环境S...

2019-01-21 20:17:19 175

原创 Apache Flink最详细的概述

Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否正当。本文是先介绍 Flink,再说 Flink的过去和现在一、Flink介绍Flink是一款分布式的计算引擎,...

2019-01-20 16:46:37 1627

原创 原百度大数据架构师首次分享:15年技术生涯经验分享

先说说我自己吧!研究生学的是数据统计,之后跟数据的恩爱情仇就开始了!毕业之后由于在大学的时候学的还算比较扎实,经过一段时间的准备,去面试了百度的大数据工程师,很幸运的被录用上了,之后的职业生涯都是在百度度过的,现在有了一些资本,打算跟朋友出来一起单干了。好了,介绍已经完了,那么接下来咱们聊一聊大数据这个行业。行业现状大数据时代的到来,简单的说是海量数据同完美计算能力结合的结果。确切的说是移...

2019-01-20 10:12:26 1007

转载 阿里数据专家谈:数据科学家必备技能包

数据科学家需要涉猎的知识面很广,包括:机器学习、计算机科学、统计学、数学、数据可视化、沟通和深度学习,那么数据科学家应如何制定他们的学习预算,才能最大限度地满足雇主的需要?我浏览了一些求职网站,想找出哪些技能是数据科学家最需要掌握的技能,并对普通数据科学技能以及特定的语言和工具的特殊技能分别做了一些研究。2018年,我在LinkedIn,Indeed,SimplyHired,Monster上搜...

2019-01-18 17:27:07 331

原创 5分钟解析Hadoop Yarn架构

一. Hadoop Yarn 是什么在古老的 Hadoop1.0 中,MapReduce 的 JobTracker 负责了太多的工作,包括资源调度,管理众多的 TaskTracker 等工作。这自然是不合理的,于是 Hadoop 在 1.0 到 2.0 的升级过程中,便将 JobTracker 的资源调度工作独立了出来,而这一改动,直接让 Hadoop 成为大数据中最稳固的那一块基石,而这个独...

2019-01-18 16:27:14 188

转载 Hadoop系列008-HDFS的数据流

HDFS写数据流程1.1 剖析文件写入image1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端请求dn1上传数据,dn...

2019-01-18 16:08:54 110

原创 推荐两个不错的flink项目

最近flink真是风生水起,但是我看来这不过是阿里错过了创造spark影响力之后,想要在flink领域创建绝对的影响力。但是,不可否认flink在实时领域确实目前来看独树一帜,当然也有它不适合的地方,比如今天要推荐的第一个基于flink开发的项目,流表和维表的join,还有很多地方还是用spark streaming更合适,但是整体的流处理而言flink确实很优秀,虽然目前测出了一些bug,后面会...

2019-01-16 21:51:08 757

转载 百度资深技术大咖谈:正确选择开源的机器学习框架

开源是创新和科技快速发展的核心。在此,我们将讨论如何针对不同的用例选取开源的机器学习工具。尽管机器学习还处于早期发展阶段,但从医疗、安全到个性化营销,这种潜在的价值使得公司将机器学习作为一种机会。 为什么要选择机器学习框架呢?使用开源工具的好处不仅仅在于其可用性。通常来说,如此级别的项目均有大量的数据工程师和数据科学家愿意去分享数据集和前期训练模型。比如,你可以使用分类模型训练来自...

2019-01-16 21:04:58 326

转载 传统数据库向大数据的渐进式转型

数据仓库系统长期以来一直是企业 IT 架构的重要组成部分。随着开源技术的不断发展以及云端部署方式的不断深入,传统数据仓库的局限性日益凸显,难以适应新技术带来的市场变革,如何面向大数据技术进行数据仓库的优化、转型是企业 IT 管理者面临的重要挑战。处于不同阶段的企业如何应用大数据技术?如何面向大数据技术进行数据仓库转型?如何对现有数据仓库进行优化?如何在 Hadoop 中进行性能优化?这些已成为困扰...

2019-01-16 16:46:44 952

转载 看完这篇文章后,别再说自己不懂用户画像了

用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念。现在我们运营谈及用户画像,它也是和精准营销、精细化运营直接钩挂的。这篇文章主要讲产品和运营角度的用户画像。希望看完后,解决你一切关于用户画像的疑问。什么是用户画像用户画像一点也不神秘,它是根据用户在互联网留下的种种数据,主动或被动地收集,最后加工成一系列的标签。比如猜用户是男是女,哪里人,工资多少,有没有谈恋爱,喜欢什么,...

2019-01-16 16:30:01 1536

原创 寒冬过后,程序员的春天?

这个冬天的程序员可谓是受到了心理和生理上的双重折磨,不仅天气冷,寒冬还见了鬼一样的笼罩着it圈!正如网上所说,哪有稳定的工作,只有稳定的能力。这个冬天上午还在改bug下午就被裁员的新闻屡见不鲜。大家都知道,在大公司工作的程序员我们一般都称为拧螺丝,那么这样工作的程序员有什么缺点呢?没有积累技能优势,我们每天用单一的技能应付工作,最后工作应付我们。那么程序员需要怎么才能避免这种危机呢?只能坐等...

2019-01-16 14:59:20 445

原创 阿里大数据架构师分享:Spark源码解析

首先看一段使用scala编写的spark代码:package spark0719import org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject Ttspark {val conf =new SparkConf().setAppName("sp").setMaster("local")...

2019-01-15 17:52:27 394

转载 2019年实现分析和数据仓库现代化的三大趋势

今年数据分析的优先事项发生了变化。增长因素和业务优先级不断变化。不要眨眼,否则您可能会错过领先的组织正在进行的现代化分析和数据仓库环境。我花了一个月整理了一份最适合2018年学习的大数据学习干货,从最基础的大数据集群搭建,大搜数据组件和项目实战,加群QQ群:894951460注明csdn既可免费获取。商业智能(BI)是由Dresner Advisory Services首席研究官Howard ...

2019-01-15 16:20:27 736

原创 十年大数据开发经验之后,只有这点路线心得可以分享了!

导读:经常有初学者在简书上和和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感...

2019-01-15 16:04:34 469

原创 阿里重磅开源 Blink:为什么我们等了这么久?

今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink,并创建了内部分支 Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12 月 20 日,由阿里巴巴承办的 Flink Fo...

2019-01-15 15:41:09 598

原创 Spark各目录作用(部署目录和运行时目录)

一、部署目录1.bin 运行脚本目录beelineexec "${SPARK_HOME}/bin/spark-class" $CLASS "$@" 执行spark-class,在spark-class中. "${SPARK_HOME}"/bin/load-spark-env.sh表示执行spark-env.sh的配置信息,确保会加载pyspark 最后exec "${SPARK_H...

2019-01-15 15:23:23 1162

原创 百度Hr分享,一个合格的数据工程师的简历必备技能?

如果你是一名数据科学方面的求职者,你肯定想知道在简历上写些什么才能获得面试的机会;如果你想进入这个领域,你一定想知道具备哪些技术才能成为一名有竞争力的求职者。在本文中,我们对Indeed中一千份数据科学相关的招聘信息进行了分析,主要针对数据工程师、数据科学家和机器学习工程师这三个职位,希望能解答你的疑问。首先,让我们来看看不同职位的技能要求。一、必备语言1. 目前Python处于主...

2019-01-14 17:04:35 742

提示
确定要删除当前文章?
取消 删除