自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

等风等雨等你

一个有趣的灵魂

原创 2018最常用大数据业务监控项目方案流程解析(文章结尾内附重大干货和福利)

         根据监控对象的不同,监控系统可以分为系统监控、应用监控和业务监控。“实时交易监控系统”属于业务监控,主要用于监控客户的购买行为及订单情况,一般用于支持公司的日常运营决策和重大营销活动,如“双11”、“双12”及“双旦”等,对数据的实时性要求较高。“实时交易监控系统”对数据的一般处...

2018-09-05 14:53:03 1411 0

原创 使用Scala开发Apache Kafka的TOP 20大好用实践

Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如,New Relic的Kafka集群每秒处理超过1500万条消息,总数据速率接近1 Tbps。   整理了一份2018年合...

2018-12-24 20:07:11 173 0

原创 flink内部计算指标的95线-99线等的实现

15年在某电商从0设计了一个通用的API监控系统,当时只是计算了成功率+平均耗时,没有算75,90,95,99,999,9999线,这次单位需要,所以促使我去思考这个问题,问了单位CAT维护人员,大致了解了计算方式,跟我在18年7月份在单位内网BBS发表的文章思路是一致的,所以就直接写了下面的代码...

2018-12-24 19:50:24 6580 1

原创 深度预警:深入理解HBase的系统架构

HBase的构成 物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。 其中Region server负责数据的读写服务。用户通过沟通Region server来实现对数据的访问。 HBa...

2018-12-24 17:30:28 167 0

原创 程序员:我这个月外快赚了2w多!

在大多数看来,程序员的整体平均薪资算是比较高的。但其实几千到几万不等,除了刚入门的程序员和有几年开发经验程序员在能力和经验上导致的薪资差距外,其实还有一个很重要的因素:“睡”后收入。先来看看你是哪种程序员? 你是哪种程序员? 第一种程序员: 上班8小时,收益一次。投入大量精力和时间,只有固定...

2018-12-24 15:46:17 7535 0

原创 华为、阿里,终有一战:先从抢人开始!

  一名在华为干了八年的老员工最近拿了阿里的offer,有些纠结,其毕业后就在华为工作,一干就是八年,级别也到了令人羡慕的18级,最近其试着跳槽,拿到了阿里P8级别。按理说这级别也不低了,但就是工资不太美丽,于是一顿吐槽:华为应届8年18级,目前收到阿里的offer,p8,薪资45k,股票若干,...

2018-12-24 14:00:35 305 0

原创 程序员失误造成服务停用3小时,只得到半月辞退补偿,发帖喊冤

一般情况来说,做技术的程序员大部分都是比较细心的,因为这个职业容不得下你粗心,一个小小的失误如果放在关键的地方将会酿造巨大的损失,成百倍千倍的放大,当然程序员也是人,是人都有可能有失误的地方,于是就需要测试人员专职进行对功能的复核,通过这种方式来来最大限度避免一些损失的发生,即便如此,也有可能有一...

2018-12-23 17:08:58 459 0

原创 小议Lambda与Kappa架构,不可变数据的计算探索

Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁棒性,可扩展,低延时的分布式计算系统。之所以称之为Lambda架构,就是它最为核心的点就是理由了数据处理过程之中的不可变性与无依赖性。 Lambda架构说起来也很简单,就是通过分布式系统的组件搭建,设计出一个具有鲁棒性...

2018-12-23 16:29:49 164 0

原创 程序员晒出从毕业到工作5年照片,抱怨头发掉光了,网友:很真实

在很多人印象中,程序员这个工作标签还是很明显的,那就是工资高、光头,单身,用这3个词最能能描述程序员的特征。最近在网上看到有程序员晒出自己从毕业到工作5年的照片,抱怨头发都掉光了。有网友看到后说,这很真实,也是你的资历证明。 我们仔细看这个程序员的照片,刚毕业时,还是有着茂密的头发,看起来也比较...

2018-12-23 16:19:28 2994 1

原创 大数据分析技术与实战之 Spark Streaming

Spark是基于内存的大数据综合处理引擎,具有优秀的作业调度机制和快速的分布式计算能力,使其能够更加高效地进行迭代计算,因此Spark能够在一定程度上实现大数据的流式处理。 随着信息技术的迅猛发展,数据量呈现出爆炸式增长趋势,数据的种类与变化速度也远远超出人们的想象,因此人们对大数据处理提出了更...

2018-12-23 14:31:04 138 0

原创 程序员羡慕地铁口卖饼夫妻:一个月能赚五万多,比写代码强多了

三百六十行,行行出状元。可惜每个行业的人都羡慕另外行业的人,就像围城效应一样,一名程序员就在网络上感慨起来:高新园某地铁口附近,卖饼的夫妻跟我说,一个月能赚五万多的样子,就是凌晨三点要起床和面,唉,好羡慕,比写代码强多了。 有程序员据此算了一笔账:平均赚2.5万一个,无社保奖金,早上3点到下...

2018-12-23 10:27:48 695 0

原创 30岁以上简历基本不看 互联网人的苦日子来了?

任何行业都有生命周期,过惯了好日子的互联网人,接下来可能要调整调整心态、适应新节奏了。 12月末,北京气温多次降至零下十度以下,最冷的日子到了。 和寒流一起到来的,是互联网企业减员的消息。从知乎、锤子、美团到京东、腾讯、阿里,据《21CBR》记者统计,过去的半年里,至少有11家企业相继被传裁员...

2018-12-21 22:23:22 234 0

原创 解读 2018:13 家开源框架谁能统一流计算?

2018 年接近尾声,I我策划了“解读 2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可能的...

2018-12-21 19:24:51 508 0

原创 阿里重磅开源 Blink:为什么我们等了这么久?

今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和 API 诸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持续火爆。阿里巴巴自 2015 年开始改进 Flink,并创建了内部分支 Blink,目前服务于阿里集...

2018-12-21 17:01:30 1849 0

原创 Hive实践分享之存储和压缩的坑

在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到一些存储和压缩的坑。 大家都知道,由于集群资源有限,我们一般都会针对数据文件的「存储结构」和「压缩形式」进行配置优化。在我实际查看以后,发现集群的文件存储格式为Parquet,一种列式存储引擎,类似的还有ORC。而文...

2018-12-21 15:20:49 81 0

原创 Hadoop中Hive原理及安装

Hive是什么(官网概念) Apache Hive™数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。提供命令行工具和JDBC驱动程序,用于将用户连接到Hive。整理了一份适合2018年学习的大数据资料需要的加群QQ群:834325294...

2018-12-20 22:19:50 113 0

原创 程序员吐槽工资和Bug数量挂钩!网友:不写代码就能最高绩效

  相信大家都知道,每一个项目是否能够上线都是又Bug大小和数量来决定的,Bug多了会影响用户的体验,到时候不仅会给公司带来经济损失,对公司的名声也会有一定的影响,而到最后背锅的还是测试人员和开发人员。所以有的公司为了防止出现这种状况,会要求项目的Bug数量尽量少! 这位程序员的公司就实行...

2018-12-20 20:51:37 260 0

原创 Flink1.7稳定版发布:新增功能为企业生产带来哪些好处

1.Flink1.7开始支持Scala哪个版本? 2.Flink1.7状态演变在实际生产中有什么好处? 3.支持SQL/Table API中的富集连接可以做那些事情? 4.Flink1.7新增了哪些连接器 Apache Flink社区宣布Apache Flink 1.7.0发布。 最新版本...

2018-12-20 19:28:37 134 0

原创 彻底明白Hadoop map和reduce的个数决定因素

Hadoop map和reduce的个数设置,困扰了很多学习Hadoop的成员,为什么设置了配置参数就是不生效那?Hadoop Map和Reduce个数,到底跟什么有关系。首先他的参数很多,而且可能随着版本不同一些配置参数,会发生一些变化,但是只要我们搞懂核心问题,那么其它在变,我们都能确...

2018-12-20 19:22:07 893 0

原创 最难学的10大编程语言Java排第3, 它竟是第1名!

编程语言是开发者们代码工作的核心,也是许多开发者最爱讨论的话题。编程语言的选择对开发者和工具制造商都十分重要,前者需要保持最新和具备市场潜力的技能,后者则亟需确保他们能够提供最有用的 SDK。 开发者经济分析公司 SlashData 曾发布了《 2018 年第 2 季度各国开发者状况》调查报告,...

2018-12-20 16:24:37 651 0

原创 spark--当分组遇到排序的解决思路

场景 现在有如下数据格式 图书分类,图书名,数量 现在想统计全部分类中数量最多的书名以及数量 场景解析 如果不基于spark,我们来思考这个问题,数据量大内存是放不下,分类也不确定有多少类,图书名可能有重复,还需要合并计算。这种情况只能是分治,首先分类,把文件首先按照分类拆分成多个文...

2018-12-20 15:07:02 73 0

原创 程序员叹息:年薪30万,相亲时却被月薪3000的女白领看不上

对于踏入职场的年轻人来说,事业和婚姻是对他们来说最重要的事情,有的人年轻时选择了先拼事业,有的却会选择先成家再立业。 而其中,程序员大多都属于前者,众所周知,程序员一天的工作时间至少在10小时以上,每天没有多少时间休闲,而且程序员大多是宅男,很少有机会接触到异性,所以很多年近30都依然是光棍一个...

2018-12-20 13:46:41 728 0

原创 实时计算——聊一聊我所经历的计算框架

在聊实时计算之前,先说一下我对离线和批量、实时和流式的一些看法。 我们首先来简单看一下计算任务的大致流程: 首先先说下批量计算和流式计算: 图中显示了一个计算的基本流程,receiver处负责从数据源接收数据,并发送给下游的task,数据由task处理后由sink端输出。 以图为例...

2018-12-19 20:35:16 1012 0

原创 程序员按代码行数算工资,员工利用规则赚2.6万,隔天却辞职了

对于职场朋友来说,工资无疑是对于自己最重要的,每家公司对于员工的工资都有一定的标准,有些是恒定的,也有一些是根据一些因素来决定的,难么你知道程序员的工资都是如何规定的吗?最近看到一个很有意思的工资标准。 一位朋友说自己以前在一家公司工作,这家公司对于程序员的工资是按照代码行数来算工资的,这的确是...

2018-12-19 19:22:56 436 0

原创 通过调研开源基准测试集,解读大数据的应用现状和开源未来

 这篇综述论文解读了 2006 大数据系统兴起以来代表性应用和开源基准测试集。近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进。然而,迄今为止,还没有就这些基准测试集进行系统调研。因此,本文对当前最前沿的开源大数据基准测试集进行全面总结,...

2018-12-19 16:00:11 83 0

原创 程序员吐槽:不公平对待,工资对不起我的付出

随着最近几年网络科技的发展,IT行业成为了资本世界的宠儿,只要是有能力 ,那么就可以得高薪,能力越高工资也就也就越多。而且这个行业似乎对于应届生来说都有着眷顾,一般的应届生毕业了还对自己的未来很迷茫,纠结要不要转行,但是程序员不一样了,毕业了之后撸起袖子就是干,只要肯做事就不怕没有钱,一般刚毕业的...

2018-12-19 15:25:29 161 0

原创 阿里程序员的忧伤:来阿里发现压力太大,不懂也不知道问谁

一名阿里的程序员在互联网大神常出没的论坛诉说内心的忧伤,看着较为伤感,他这样表示:来到阿里发现压力太大了,老板总期望你有更多的产出,一方面前人没文档,大家忙的要死,不知道请教谁,感觉要被开除了,很黑暗。 通过楼主的贴文可以看出,该程序员在阿里工作的并不愉快,反之还有各种的不愉快,无奈之余选择...

2018-12-19 14:46:30 944 0

原创 为什么你的大数据项目会失败

本文列举了实施大数据项目遇到的问题,并针对这些问题提出了解决办法。 错误的使用方法     企业往往会犯下两种错误,要么构建起一套过分激进、自己根本无法驾驭的大数据项目,要么尝试利用传统数据技术处理大数据问题。无论是哪种情况,都很有可能导致项目陷入困境。 提出错误的问题     数据科...

2018-12-19 14:15:32 163 0

原创 如何构建一个flink sql平台

们都知道,离线计算有Hive,使用过的知道,需要先定义一个schema,比如针对HDFS这种存储对标mysql定义一个schema,schema的本质是什么?主要描述下面这些信息整理了一份适合2018年学习的大数据资料需要的加群QQ群:834325294 注明CSDN既可免费获取 1)当前存储的...

2018-12-18 22:25:49 310 0

转载 程序员真的都不爱炫富吗?

在IT界,大家都说西二旗人是装逼界的一股清流,他们熟练掌握Java、C++、iOS和安卓,也会一百种编码技巧,但月入五万却过的像月入五千,鲜有人炫富。 西二旗,北京一个地名,聚集百度、网易、新浪总部......距离中关村9公里不到,房租比周边更便宜,深得质朴码农程序员喜欢,而西二旗人泛指租住在西...

2018-12-18 16:19:30 137 0

转载 程序员为什么焦虑于编程语言和框架?

近日读到一篇文章,作者是做海量分布式服务器系统设计开发的,文中提到: 核心能力是什么?是架构设计,关键细节设计的能力和经验。 在海量服务器设计领域,核心能力,大概包含物理设计和软件设计。物理设计包含:磁盘存储设计,内存缓存设计,核心数据结构设计,一致性问题处理,容灾设计等;软件设计方面包...

2018-12-18 16:09:49 97 0

原创 平凡是程序员唯一的答案吗

我在 Facebook 有一位好友。他本科国内 Top 2 大学毕业,在美国拿了最顶尖大学的硕士学位,然后年纪轻轻就做到了技术负责人,拿着超高的薪水。就是这么一个开了挂一般的天才,每个星期六晚上的夜里,他是永远是睡不着的。 我问他为什么失眠。他的回答是焦虑。 他说,他马上就要30岁了。他的老板...

2018-12-18 15:58:55 89 0

原创 Hadoop运行在Kubernetes平台实践

Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出茅庐的青涩少年,骨骼惊奇,不走寻常路,一出手便惊诧了整个武林。 Hadoop与Kubernetes就好像江湖里的两大绝世高手,一个是成名已久的长者,至今仍然名声远扬,一个则是初出茅庐...

2018-12-18 15:45:42 859 0

原创 没有什么内存问题,是一行Python代码解决不了的

大数据学习的小诀窍 内存不足是项目开发过程中经常碰到的问题,我和我的团队在之前的一个项目中也遇到了这个问题,我们的项目需要存储和处理一个相当大的动态列表,测试人员经常向我抱怨内存不足。但是最终,我们通过添加一行简单的代码解决了这个问题。 结果如图所示:   我将在下面解释它的工作原理。...

2018-12-18 14:42:33 80 0

原创 大数据就业前景分析的太到位了【附:视频资料】

大数据广泛应用于电网运行、经营管理及优质服务等各大领域,并正在改变着各行各业,也引领了大数据人才的变革。大数据专业就业前景怎么样?这对于在就业迷途中的我们是一个很重要的信息。 随着大数据时代的到来【这次国家教育部也改革动真格了】,程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? ...

2018-12-17 20:43:51 304 0

原创 十分钟了解大数据处理的五大关键技术及其应用

BAT大数据工程师是怎么样炼成的 数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要工作环节包括: 大数据采集、 大数据预...

2018-12-17 20:33:33 229 0

原创 2018最新BAT大数据面试题答案

BAT企业大数据专业技术知识讲解 1、kafka的message包括哪些信息 一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成 header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic...

2018-12-17 19:26:02 526 0

原创 做了五年大数据开发工程师总结的的大数据学习路线

经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣...

2018-12-17 17:20:22 419 0

原创 滴滴 Elasticsearch 多集群架构实践

半年内就从java转行为大数据开发 Elasticsearch 是基于 Lucene 实现的分布式搜索引擎,提供了海量数据实时检索和分析能力。Elastic 公司开源的一系列产品组成的 Elastic Stack,可以为日志服务、搜索引擎、系统监控等提供简单、易用的解决方案。 滴滴 Elast...

2018-12-17 16:19:29 2407 2

原创 未来最好的大学专业,非大数据莫属!

随着大数据行业的政策扶持与技术手段的不断更新,目前中国企业大数据市场已迈入快速发展时期。 与此同时大数据应用领域广,成长性高,人才缺口大,薪资待遇好,这也推动了大数据成为大学新增专业之一,在我国已有北京大学,清华大学,复旦大学,中南大学等成为“数据科学与大数据技术”首批申请成功的高校。未来,可以...

2018-12-16 16:57:38 93 0

提示
确定要删除当前文章?
取消 删除