—BigData
文章平均质量分 76
Wang_Zhenwei
这个作者很懒,什么都没留下…
展开
-
会议1_第四届Elasticsearch国内开发者会议(北京站)内容概览
原创 2015-10-22 18:22:40 · 663 阅读 · 0 评论 -
BigData学习6_ 关系代数的并行计算
从Dremel和Impala的学习引申出了SQL查询的并行执行问题,于是借此机会深入学习一下关系数据库以及关系代数的并行计算。 Speedup和Scaleup Speedup指用两倍的硬件换来一半的执行时间。Scaleup指两倍的硬件换来同等时间内执行两倍的任务。但往往事情不是那么简单,两倍的硬件也会带来其他问题:更多CPU带来的长启动时间和通信开销,以及并行计算带来的数据倾斜问题。转载 2018-01-27 23:25:46 · 475 阅读 · 0 评论 -
BigData学习5_ 几张图看懂列式存储
最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念。 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻转载 2018-01-27 22:42:47 · 373 阅读 · 0 评论 -
Programming学习2_大数据常用十种开发语言
随着大数据热潮持续延烧,几乎每个产业都有如洪水般倾泻的信息,面对上万笔的顾客浏览纪录、购买行为数据,如果要用 Excel 来进行数据处理真是太不切实际了,Excel 相较于其他统计软件的功能已相去甚远;但如果只会操作统计软件而不会用逻辑分析数据背后的涵义与事实现况相应证的话,那也不过只能做数据处理,替代性很高的工作,而无法深入规划策略的核心。 当然,基本功是最不可忽略的环节,想要成为数据转载 2017-10-16 22:47:16 · 410 阅读 · 0 评论 -
BigData学习4_内部攻击实验数据集浅析
杨光+吴钰 摘要:获取用户行为数据集是内部威胁研究的前提和基础,该文深度调研了当今公开的内部威胁实验数据集,通过分析KDD99、SEA、WUIL以及CERT-IT四种主流的数据集,提出上述数据集的优缺点,并指出未来数据集构建的研究方向。 关键词:内部威胁;网络安全;安全审计 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)21-0055-02转载 2017-02-14 15:12:53 · 5413 阅读 · 0 评论 -
BigData学习2_分布式基础(1):CAP原理、BASE思想和最终一致性
CAP,BASE和最终一致性是NoSQL数据库存在的三大基石。 CAP C: Consistency 一致性 A: Availability 可用性(指的是快速获取数据) P: Tolerance of network Partition 分区容忍性(分布式) 在足球比赛里,一个球员在一场比赛中进三个球,称之为帽子戏法(HAT-TRICK)。在分转载 2016-09-26 17:01:13 · 642 阅读 · 0 评论 -
BigData学习3_大数据技术Hadoop面试题_选择和判断
单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动?转载 2016-10-09 13:51:55 · 1377 阅读 · 0 评论 -
BigData学习1_数据处理平台架构中的SMACK组合:Spark、Mesos、Akka、Cassandra以及Kafka
在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆栈仅由数个简单部分组成,但其能够实现大量不同系统设计。除了纯粹的批量或者流处理机制之外,我们亦可借此实现复杂的Lambda以及Kappa架构。 基于Mesos技术的数人云可以快速部署和运行Spark、Akka、Cassandra以及Kafk转载 2016-02-18 16:32:33 · 2512 阅读 · 0 评论 -
已安装系统、软件和工具的版本号备份-2
软件版本号确认 2015.11.25整理 一、版本号确认 CentOS 6.5 使用版本:6.5 最新版本:1.8.0_65 下载地址: http://mirror.symnds.com/distributions/CentOS-vault/6.5/isos/x86_64/CentOS-6.5-x86_64-bin-DVD1.iso 是否保存有安装包:是,CentOS-6.5原创 2015-11-25 23:25:08 · 638 阅读 · 0 评论 -
已安装系统、软件和工具的版本号备份
系统: CentOS CentOS-6.5-x86_64-bin-DVD1.iso ELK系列: Elasticsearch elasticsearch-1.7.3.tar.gz Logstash logstash-1.5.4.tar.gz Kibana kibana-4.1.2-linux-x64 Elasticsearch1.7.3要求JDK版本号是JDK8原创 2015-10-29 17:11:32 · 753 阅读 · 0 评论 -
会议2_2015阿帕奇路演(中国站)大数据生态链分场内容概览
大数据生态链分场在大会的第一天下午举办,有五位嘉宾进行了相关演讲。 具体演讲内容如下: 2015年10月24日 下午 分会场3:大数据生态体系/Big Data Ecosystem 话题1:Hadoop生态系统分析(幻灯片) Hadoop ecosystem analysis, 卢亿雷,AdMaster 技术副总裁 话题2:jstorm 的现状和未来(幻灯片原创 2015-11-01 19:55:49 · 1483 阅读 · 0 评论 -
BigData学习7_五大存储模型关系模型、键值存储、文档存储、列式存储、图形数据库
也可以认为是五大数据库存储模型。 数据库市场需要细分,行式数据库不再满足所有的需求,而有很多需求需要通过本内存数据库和列式数据库解决,列式数据库在数据分析、海量存储、BI这三个领域有自己独到。 1. 关系型数据库(行式数据库) mysql sybase etc 定义:关系模型使用记录(行或者元祖)进行存储,记录存储在表中,表由架构界定。表中的每个列都有名称和类型,表中转载 2018-01-28 16:37:49 · 849 阅读 · 0 评论