- 博客(27)
- 收藏
- 关注
转载 程序员:加班三年身体垮了,存款25W真不值!
程序员忠告:加班三年身体垮了,存款 25W 真不值!近日,有程序员在某职场交流平台发帖寻求帮助称:自己在深圳一家公司做初级程序员,双非毕业三年,目前自己储蓄约 25w,因...
2019-04-30 20:55:12 357
原创 flink状态管理-keyed
Flink主要有两种基础类型的状态:keyed state 和operator state。1Keyed StateKeyed State总是和keys相关,并且只能用于...
2019-04-29 19:19:17 1372
原创 Spark SQL的Parquet那些事儿.docx
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对par...
2019-04-28 20:12:54 1569 1
转载 大数据面试题分析
转自:https://blog.csdn.net/csuwubing/article/details/79259749最近学习了hashtable的一点知识,发现可以用来...
2019-04-27 22:06:26 330
转载 我的老公是枚码农
原文地址:http://codebay.cn/post/6073.html前两天看到一篇写程序员的爆文,虽然略显夸张,但也着实有趣。忽然想到身边人也是一枚码农,浑身上下也...
2019-04-26 20:34:14 312
转载 大数据实战|怎样实现大型电商热销榜?
上次给粉丝的福利,购买极客时间课程,浪尖这里返现:球友24元,非球友10元或者8折入球。大家还记得吗,发现很多粉丝比较滞后,这两天还陆续找我要返现,,,今天看了一下,极客...
2019-04-25 19:58:08 573
转载 何为大数据分析?
大数据的分析从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及...
2019-04-24 21:38:52 654
原创 寻二人
还有人记得浪尖公众号上次抽奖送书吗?不记得的话可以点击下面文章回顾一下:浪尖公众号粉丝送书距离上次公众号粉丝送书十本的抽奖活动结束已经三天了,至今还有二人未与浪尖联系,未...
2019-04-23 21:54:39 189
转载 ClickHouse高性能分布式分析数据库
向大家介绍ClickHouse的基本特性和概念,特别是性能对比数据,包括和Hive/Spark/Druid的性能对比。文章资源来自示说网ppt下载 https://www...
2019-04-22 23:38:01 1807
原创 SparkStreaming如何解决小文件问题
使用sparkstreaming时,如果实时计算结果要写入到HDFS,那么不可避免的会遇到一个问题,那就是在默认情况下会产生非常多的小文件,这是由sparkstreami...
2019-04-21 22:11:53 724
转载 开发人员不得不知的MySQL索引和查询优化
“本文主要总结了工作中一些常用的操作及不合理的操作,在对慢查询进行优化时收集的一些有用的资料和信息,本文适合有 MySQL 基础的开发人员。索引相关索引基数基数是数据列所...
2019-04-20 21:54:09 236
转载 一文搞定Redis高级特性与性能调优
“本文从 Redis 基本特性入手,通过讲述 Redis 的数据结构和主要命令对 Redis 的基本能力进行直观介绍。之后概览 Redis 提供的高级能力,并在部署、维护...
2019-04-19 22:13:13 724
转载 Presto+Alluxio性能调优五大技巧
请点击上方蓝字,关注我们哦!Presto是一个开源的分布式SQL引擎,因其查询具有低延迟、高并发性和原生支持多数据源的特点而广受认可。Alluxio是一个开源分布式文件系...
2019-04-18 22:05:13 1705
转载 别说996,就是9-12-6我都能干…
昨天的福利还在继续:大数据学习福利~兄弟在你被裁员之前,你永远不知道自己是不是东哥的兄弟,这一定律也被称为薛定谔的兄弟。脸盲企业家接受采访,被问道:“听说你把企业的员工都...
2019-04-16 20:00:01 558 2
转载 大数据学习福利~
今天浪尖特别推荐一套谷歌大牛工程师的极客时间专栏的课程。我仔细看了下专栏的目录,六个部分非常值得期待:第一部分,先会用原汁原味最实际的硅谷一线大厂的案例,向你解释Map...
2019-04-15 17:19:45 173
转载 Alluxio 2.0:在云上实现超大规模数据工作负载
我们非常高兴和激动地宣布推出Alluxio 2.0预览版——这是本项目自创立以来包含最多新功能和改进的一次开源发布版本。Alluxio 2.0预览版现在可供下载(...
2019-04-14 21:38:10 520
转载 数据质量管理
大数据已经从由刚刚的只关注集群安装部署使用的基础层级,逐步演化关注性能,稳定性,监控及自动故障处理。正所谓饱暖思质量,平台业务稳定之后,开始以盈利为目的的商业化。在这过程...
2019-04-13 21:09:25 1934
转载 马云谈996
本文来自微信公众号:阿里巴巴(ID:alibabagroup2014),题图由阿里巴巴提供这是一个有争论的话题,但我们要表达自己真实的想法。昨晚在阿里内部交流活动上,马老...
2019-04-12 20:15:12 200
原创 脑补|yarn能并行运行任务总数~
最近知识星球没动静主要原因是知识星球他们在做系统升级,我也很无奈,由此给球友带来的不安,深感抱歉。前几天球友问了我一个问题:请问浪总,集群400GB内存,提交了10个任务...
2019-04-11 19:39:21 2549 3
转载 五项值得关注的大数据发展趋势
当今,世界无时无刻不在发生着变化。对于技术领域而言,普遍存在的一个巨大变化就是为大数据(Big data)打开了大门,并应用大数据技相关技术来改善各行业的业务并促进经济的...
2019-04-10 19:58:12 415
转载 用Python实现一个大数据搜索引擎
搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数...
2019-04-09 20:23:00 770
原创 戳破 | hive on spark 调优点
微信交流群里有人问浪尖hive on spark如何调优,当时浪尖时间忙没时间回答,这里就给出一篇文章详细聊聊。强调一下资源设置调优,这个强经验性质的,这里给出的数值比例...
2019-04-08 23:42:12 3935 1
转载 阿里HBase的数据管道设施实践与演进
云栖君导读:第九届中国数据库技术大会,阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、H...
2019-04-07 22:21:25 396
转载 HBase学习—高表与宽表的选择
转自:https://yq.aliyun.com/articles/213705?utm_content=m_31236hbase中的宽表是指很多列较少行,即列多行少的表...
2019-04-06 22:39:10 224
转载 面试的角度诠释Java工程师(一)
前言:我相信每一个程序员都是为了生活而努力着的。很多人因为兴趣,从此踏上了这条‘烧脑大行动’的金桥;也有很多人因为梦想和执着,奋不顾身融入这个职业;还有很多人因为被现实逼...
2019-04-04 22:38:43 138
转载 JAVA程序员面试总结,高手整理加强版
第一阶段:三年我认为三年对于程序员来说是第一个门槛,这个阶段将会淘汰掉一批不适合写代码的人。这一阶段,我们走出校园,迈入社会,成为一名程序员,正式从书本上的内容迈向真正...
2019-04-03 21:04:42 194
原创 必读|spark的重分区及排序
前几天,有人在星球里,问了一个有趣的算子,也即是RepartitionAndSortWithinPartitions。当时浪尖也在星球里讲了一下,整个关于分区排序的内容。...
2019-04-02 21:58:09 1043
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人