自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据星球-浪尖

主要分享Spark使用及源码,spark 机器学习,图计算,同时会涉及到,如:hadoop,Hbase,Hive,Kafka。保证文章质量,给大家提供一个好的知识分享平台。

  • 博客(31)
  • 收藏
  • 关注

转载 Facebook数据泄露事件解读

“ 本月中旬,Facebook数据泄露丑闻爆发,上周一Facebook股价更是大跌7%,市值蒸发360多亿美元,CEO扎克伯格也因此身家缩水,跌出福布斯富豪榜前五位。与此同时,欧盟、英国纷纷作出强烈回应,要求对数据泄露事件进行调查。民调显示,只有不到一半的美国人信任Facebook遵守美国的隐私法,...”数据在不同主体间的传输与流转是大数据时代互联网产业发展的必然,无论是去年四部委评审的各大互联

2018-03-31 00:00:00 18422

转载 高可用Redis服务架构分析与搭建

基于内存的Redis应该是目前各种web开发业务中最为常用的key-value数据库了,我们经常在业务中用其存储用户登陆态(Session存储),加速一些热数据的查询(相比较mysql而言,速度有数量级的提升),做简单的消息队列(LPUSH和BRPOP)、订阅发布(PUB/SUB)系统等等。规模比较大的互联网公司,一般都会有专门的团队,将Redis存储以基础服务的形式提供给各个业务调用。不过任何一

2018-03-30 00:00:00 231

转载 区块链与大数据究竟有着怎样的关系?

来源 | 全球大数据峰会“ 今天,很多人还没弄懂大数据,区块链又来了。区块链与大数据究竟有着怎样的关系?进入大数据时代,云计算成为大数据基础设施,也使得大数据的核心思想和云计算一脉相承。大数据和区块链两者之间有个共同的关键词:分布式,代表了一种从技术权威垄断到去中心化的转变。”区块链让数据真正“放心”流动起来区块链以其可信任性、安全性和不可篡改性,让更多数据被解放出来。用一个典型案例来说明,即区块

2018-03-29 00:00:00 723

转载 开源消息中间件Kafka在华泰证券的探索与实践

本文选自《交易技术前沿》第二十九期 (2017年12月)樊建谷正亮陆俊华泰证券股份有限公司信息技术部邮箱:[email protected]摘要:Kafka 作为开源消息中间件的重要分支,在券商领域会有怎样的应用场景?本文从华泰证券的应用现状出发,介绍了 Kafka 在华泰证券的大规模实践经验。    点击阅读原文,即可查看原文链接。       1. 引言    Apache Kafka 发源于

2018-03-28 00:00:00 595

转载 面试必备:CMS垃圾收集器与G1收集器

1、CMS收集器  CMS收集器是一种以获取最短回收停顿时间为目标的收集器。基于“标记-清除”算法实现,它的运作过程如下:1)初始标记2)并发标记3)重新标记4)并发清除  初始标记、从新标记这两个步骤仍然需要“stop the world”,初始标记仅仅只是标记一下GC Roots能直接关联到的对象,熟读很快,并发标记阶段就是进行GC Roots Tracing,而重新标记阶段则是为了修正并发标

2018-03-27 00:00:00 10423 1

转载 Java多线程实现的三种方式

Java多线程实现方式主要有三种:继承Thread类、实现Runnable接口、使用ExecutorService、Callable、Future实现有返回结果的多线程。其中前两种方式线程执行完后都没有返回值,只有最后一种是带返回值的。1、继承Thread类实现多线程继承Thread类的方法尽管被我列为一种多线程实现方式,但Thread本质上也是实现了Runnable接口的一个实例,它代表一个线程

2018-03-26 00:00:00 738 1

转载 HashMap和Hashtable的区别

HashMap和Hashtable的区别1.两者最主要的区别在于Hashtable是线程安全,而HashMap则非线程安全Hashtable的实现方法里面都添加了synchronized关键字来确保线程同步,因此相对而言HashMap性能会高一些,我们平时使用时若无特殊需求建议使用HashMap,在多线程环境下若使用HashMap需要使用Collections.synchronizedMap()方

2018-03-25 00:00:00 471

转载 Java8内存模型

一、JVM 内存模型根据 JVM 规范,JVM 内存共分为虚拟机栈、堆、方法区、程序计数器、本地方法栈五个部分。1、虚拟机栈:每个线程有一个私有的栈,随着线程的创建而创建。栈里面存着的是一种叫“栈帧”的东西,每个方法会创建一个栈帧,栈帧中存放了局部变量表(基本数据类型和对象引用)、操作数栈、方法出口等信息。栈的大小可以固定也可以动态扩展。当栈调用深度大于JVM所允许的范围,会抛出StackOver

2018-03-24 00:00:00 510 1

转载 垂直拆分和水平拆分

垂直拆分垂直拆分就是要把表按模块划分到不同数据库表中(当然原则还是不破坏第三范式),这种拆分在大型网站的演变过程中是很常见的。当一个网站还在很小的时候,只有小量的人来开发和维护,各模块和表都在一起,当网站不断丰富和壮大的时候,也会变成多个子系统来支撑,这时就有按模块和功能把表划分出来的需求。其实,相对于垂直切分更进一步的是服务化改造,说得简单就是要把原来强耦合的系统拆分成多个弱耦合的服务,通过服务

2018-03-23 00:00:00 524

原创 必读:Spark与kafka010整合

SparkStreaming与kafka010整合读本文之前,请先阅读之前文章:必读:再讲Spark与kafka 0.8.2.1+整合Spark Streaming与kafka 0.10的整合,和0.8版本的direct Stream方式很像。Kafka的分区和spark的分区是一一对应的,可以获取offsets和元数据。API使用起来没有显著的区别。这个整合版本标记为experimental,所

2018-03-22 00:00:00 6210

转载 数据告诉你,抖音是怎么在半年之内逆袭的

从春节至今,音乐短视频社区“抖音”在苹果应用商店免费排行榜上连续多天霸榜。在这一年半的时间里,抖音到底成长到了怎么一个量级?它的用户群体又有哪些特征?我们不妨借助极光大数据来一探究竟。从春节至今,音乐短视频社区“抖音”在苹果应用商店免费排行榜上连续多天霸榜。凭借多元的音乐风格、酷炫的视觉编辑功能、个性化的分发机制以及良好的社区氛围,抖音在上线不久后便受到了年轻用户的追捧。在这一年半的时间里,抖音到

2018-03-21 00:00:00 5662

转载 Java动态代理原理及解析

代理:设计模式代理模式是一种常用的设计模式,其目的就是为其他对象提供一个代理以控制对某个真实对象的访问。代理类负责为委托类预处理消息,过滤消息并转发消息,以及进行消息被委托类执行后的后续处理。通过代理层这一中间层,有效的控制对于真实委托类对象的直接访问,同时可以实现自定义的控制策略(Spring的AOP机制),设计上获得更大的灵活性。java动态代理的类和接口(jdk1.6源码)1,java.la

2018-03-20 00:00:00 235

转载 电商系统中的商品模型的分析与设计

前言在电商系统中,商品模型至关重要,是整个电商的核心,下面通过一个简单的分析,设计一个基础的商品模型。商品模型的演化在以前,那时CMS很流行,最常见的模型是栏目-文章模型。于是做电商的时候,自然就继承了这种一对多的关系。只是栏目变成了分类,文章变成了商品。商品也具备了独特的业务属性。现在很多电商网站上左侧的菜单,也就是这个分类。后来我们慢慢发现一个问题,只有分类并不能适应所有的需求,比如nike鞋

2018-03-19 00:00:00 404

转载 编程语言排行榜:你选对了吗?

有人说程序员知识更新速度要很快,这是因为编程语言很容易就过时。这句话虽然有点绝对,但是也说明了热门的编程语言排行版一直在变。那么我们就来看一看编程语言排行,了解一下究竟哪些编程语言最值得学习、更高薪。TOP榜前20名:前10名编程语言的走势图:1Java就受欢迎的程度而言,Java是C的主要对手,二者共享前2名的位置。Java获得“2015年年度最佳语言”奖,而据Oracle公司称,使用它的开发者

2018-03-18 00:00:00 11349

原创 必读:再讲Spark与kafka 0.8.2.1+整合

Kafka在0.8和0.10版本引入了新的消费者API,所以spark Streaming与kafka的整合提供了两个包。  请根据你的集群选用正确的包。注意, 0.8和后期的版本0.9及0.10是兼容的,但是0.10整合是不兼容之前的版本的。包与版本特性之间的对应关系如下:本文主要讲述spark Streaming与kafka 0.8.2.1+版本整合,要求kafka集群的版本是0.8.2.1或

2018-03-17 00:00:00 2344

原创 1,StructuredStreaming简介

一,概述Structured Streaming是一个可扩展和容错的流处理引擎,并且是构建于sparksql引擎之上。你可以用处理静态数据的方式去处理你的流计算。随着流数据的不断流入,Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行 streaming aggregations, event-time windows, stream-t

2018-03-16 00:00:00 1486

转载 第5篇:数据库系统的实现

mysql的使用,调优,实战教程,请点击阅读原文。前言前面的文章中,主要都是在围绕关系数据库理论进行研究,没有涉及到数据库系统的具体实现。虽说数据库系统的具体实现因业务环境,RDBMS等因素而异,但总体开发流程,以及开发过程中所涉及到的一些问题,也具有不少统一的套路、标准。本文主要讨论数据库系统实现过程中的重点环节、基本开发流程、数据库管理以及数据质量工程等话题。参照完整性约束对更新删除操作的影响

2018-03-15 00:00:00 1594

转载 第4篇:SQL

前言确实,关于SQL的学习资料,各类文档在网上到处都是。但它们绝大多数的出发点都局限在旧有关系数据库里,内容近乎千篇一律。而在当今大数据的浪潮下,SQL早就被赋予了新的责任和意义。本篇中,笔者将结合过去在A公司和T公司大数据部门的学习工作经历,对传统SQL语法进行一次回顾性学习。同时,思考这门语言在大数据时代的重要意义。大数据技术中SQL的作用SQL的全称为Structured Query Lan

2018-03-14 00:00:00 275

原创 Hdfs的数据磁盘大小不均衡如何处理

最近浪尖在纠结一个现在看起来很简单的问题。现象描述建集群的时候,datanode的节点数据磁盘总共是四块磁盘做矩阵成了一个7.2TB的sdb1(data1),两块通过矩阵做了一个3.6TB的sdc1(data2)磁盘,运维做的,历史原因。刚开始没有发现,然后集群过了一段时间,随着数据量的增加,发现集群有很多磁盘超过使用率90%告警,浪尖设置磁盘告警阈值是90%,超过阈值就会发短信或者微信告警,提醒

2018-03-13 00:00:00 7139 1

转载 第3篇:更新异常与规范化设计

第三篇:更新异常与规范化设计前言在前两篇中,主要讲了ER建模和关系建模。在具体分析如何用数据库管理软件RDBMS(Relational Database Management System)实现这些关系前,我想有必要思考下面这个问题:问什么要这么麻烦?为什么又是ER建模又是关系建模的?本篇的出发点就是回答这个问题。然而某种程度上,也是回答另一个本质性的问题:为什么要有数据库?更新异常数据库的四大操

2018-03-12 00:00:00 597

转载 程序猿12个人艰不拆的真相

十年生死两茫茫,写程序,到天亮。 千行代码,Bug 何处藏。纵使上线又怎样,朝令改,夕断肠。 领导每天新想法,天天改,日日忙。相顾无言,惟有泪千行。 每晚灯火阑珊处,程序员,又加班,工作狂~下面是网友总结的程序猿 12 个“人艰不拆”的真相,大家请自觉对号入座。

2018-03-11 00:00:00 8187 28

转载 从数学到实现,全面回顾高斯过程中的函数最优化

选自efavdb作者: Jonathan Landy机器之心编译参与:白悦、蒋思源高斯过程可以被认为是一种机器学习算法,它利用点与点之间同质性的度量作为核函数,以从输入的训练数据预测未知点的值。本文从理论推导和实现详细地介绍了高斯过程,并在后面提供了用它来近似求未知函数最优解的方法。我们回顾了高斯过程(GP)拟合数据所需的数学和代码,最后得出一个常用应用的 demo——通过高斯过程搜索法快速实现函

2018-03-10 00:00:00 2084

转载 德鲁克用7段人生经历,告诉你如何突破自我

一个人,特别是一个运用知识的人,要怎样才能取得成效?这样一个人,在生活与工作多年之后,在历经多年的变化之后,又要怎样才能一直保持成效?有话说一个人,特别是一个运用知识的人,要怎样才能取得成效?这样一个人,在生活与工作多年之后,在历经多年的变化之后,又要怎样才能一直保持成效?这个问题涉及的是个体,因此不妨从我自己开始探讨。我先讲七段人生经历,它们教会了我如何一直保持成效、不断成长、不断改变,并在年龄

2018-03-09 00:00:00 624

原创 数据科学的工作流程

本文浪尖主要讲讲数据分析企业内的工作流程。随着,云计算使得计算能力的提示,大数据技术的飞速发展,数据也是备受企业重视,企业内部都是在想法设法的得到你的数据,分析你,然后从这个过程中获利。强调一点,不仅是从数据分析的结果中获利,比如推荐系统等,而且从数据采集到展示,企业都是可以获利的。由此可见,数据的重要性。数据分析既然如此重要,那么数据分析必然也衍生出了一套完整的技术流程和技术框架,而这套技术流程

2018-03-08 00:00:00 1645

转载 第2篇:数据库关系建模

第二篇:数据库关系建模前言ER建模环节完成后,需求就被描述成了ER图。之后,便可根据这个ER图设计相应的关系表了。但从ER图到具体关系表的建立还需要经过两个步骤:1. 逻辑模型设计 2. 物理模型设计。其中前者将ER图映射为逻辑意义上的关系表,后者则映射为物理意义上的关系表。逻辑意义上的关系表可以理解为单纯意义上的关系表,它不涉及到表中字段数据类型,索引信息,触发器等等细节信息。本文将详细介绍前者

2018-03-07 00:00:00 1073

转载 第1篇:数据库需求与ER建模

数据库需求与ER建模前言在数据库建设过程中,哪一步最重要?绝大多数资料会告诉你,是需求分析阶段。这一步的好坏甚至直接决定数据库项目的成败。需求分析阶段,也被称为ER建模(entity-relationship modeling)阶段,也常被称为需求可视化,概念建模等。这一阶段数据库系统开发人员将协同需求方以ER图的方式对业务需求进行可视化展现。本文将详细介绍(陈氏)ER符号体系,并在其中穿插一些具

2018-03-06 00:00:00 1283

转载 HBase高可用集群运维实践

随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题。从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化。而今年,我们主要从集群层面上提升集群可用性。1控制隔离——rsgroup在94版本中,经常困扰我们的一个问

2018-03-05 00:00:00 612

转载 数据仓库③-实现与使用(含OLAP重点讲解)

本文将对这些方面做一个总体性的介绍(尤其是OLAP),旨在让读者对数据仓库的认识提升到一个全局性的高度。创建数据仓库数据仓库的创建方法和数据库类似,也是通过编写DDL语句来实现。在过去,数据仓库系统大都建立在RDBMS上,因为维度建模其实也可以看做是关系建模的一种。但如今随着开源分布式数据仓库工具如Hadoop Hive,Spark SQL的兴起,开发人员往往将建模和实现分离。使用专门的建模软件进

2018-03-04 00:00:00 1354

转载 如何“假装”成为一名好程序员?

最近我对一位资深程序员就工作生活问题进行了深度采访,采访内容如下:Q:请问你工作多久了?5年了Q:你觉得,程序员这份工作对你有什么影响吗?有Q:那你的生活有什么改变吗?也有Q:说到地铁,听说你们南京的程序员都在软件大道上班?是的Q:那你们每天上下班挤地铁都很辛苦喽?想什么呢?Q:那你的夜生活,也全是在公司加班吗?是啊Q:你这么拼,公司待遇肯定很好吧!Q:那你们伙食呢?听说软件谷的伙食很好?是的Q:

2018-03-03 00:00:00 805 1

转载 数据仓库②-数据仓库与数据集市建模

前言数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。维度建模的基本概念维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建

2018-03-02 00:00:00 1433

转载 数据仓库①:数据仓库概述

前言阅读本文前,请先回答下面两个问题:1. 数据库和数据仓库有什么区别?2. 某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。这种情况正常吗?如果您不能五秒内给出答案,那么本文应该是对您有帮助的。注:如果您还不清楚完整参照性约束,请参考《数据库关系建模》 :,如果您还不了解范式,请参考《更新异常与规范化设计》 。数据库的"分家"随着关

2018-03-01 00:00:00 1306

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除