hadoop 大数据
琅琊山二当家
这个作者很懒,什么都没留下…
展开
-
Storm框架基础(一)
来源:https://www.jianshu.com/p/7e5fc624861b Storm简述如果你了解过SparkStreaming,那么Storm就可以类比着入门,在此我们可以先做一个简单的比较: 在SparkStreaming中:我们曾尝试过每秒钟的实时数据处理,或者使用Window若干时间范围内的数据统一处理结果。亦或统计所有时间范围内的数据结果。在Storm中...转载 2018-07-23 17:00:48 · 1634 阅读 · 0 评论 -
什么是时间序列数据
转载:https://yq.aliyun.com/articles/104243?t=t1 什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。 对时序数据进行建模的话,会包含三个重要部分,分别是:主体,时间点和测量值。...转载 2018-10-24 16:47:00 · 19641 阅读 · 0 评论 -
maven依赖提示Missing artifact jdk.tools:jdk.tools:jar:1.6或1.7类似
转载:http://piaoling.iteye.com/blog/2176435 比如我的项目要依赖Xml代码 <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> ...转载 2018-10-17 16:43:47 · 1197 阅读 · 1 评论 -
HBase配置项详解
转载:https://www.cnblogs.com/qinersky902/p/6217741.html hbase.tmp.dir:本地文件系统的临时目录,默认是java.io.tmpdir/hbase−java.io.tmpdir/hbase−{user.name};hbase.rootdir:hbase持久化的目录,被所有regionserver共享,默认${hbase.tmp.d...转载 2018-10-18 10:07:08 · 1769 阅读 · 0 评论 -
Flink 的新方向在哪里?这场顶级盛会给出了答案
转载:https://www.douban.com/note/689956396/ 九月的柏林,比杭州多了一丝清冽,与之相对应的,是如火如荼的2018 Flink Forward Berlin(以下简称FFB)会场。在这个初秋,Apache Flink 核心贡献者、行业先锋、实践专家在这里齐聚一堂,围绕Flink发展现状,生态与未来,共话计算之浪潮。值得一提的是,阿里巴巴作为ApacheF...转载 2018-09-13 15:55:44 · 417 阅读 · 0 评论 -
hadoop、storm和spark的区别、比较
hadoop、storm和spark的区别、比较一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题:1.hadoop、Storm各是什么运算2.Storm为什么被称之为流式计算系统3.hadoop适合什么场景,什么情况下使用hadoop4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Sto...转载 2016-04-14 20:35:34 · 571 阅读 · 0 评论 -
海量数据处理常用思路和方法
转载:http://blog.chinaunix.net/uid-26565142-id-3127581.html1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对 于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这 个过程并不保证...转载 2016-04-24 18:44:26 · 1221 阅读 · 0 评论 -
主流的三大分布式计算系统:Hadoop,Spark和Storm
由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。 Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apa...转载 2017-10-26 18:38:24 · 4986 阅读 · 0 评论 -
Jstorm到Flink 在今日头条的迁移实践
转载:https://blog.csdn.net/weixin_42967833/article/details/82321297 本文将为大家展示字节跳动公司怎么把Storm从J storm迁移到Flink的整个过程以及后续的计划。你可以借此了解字节跳动公司引入Flink的背景以及Flink集群的构建过程。字节跳动公司是如何兼容以前的Jstorm作业以及基于Flink做一个任务管理平台...转载 2018-09-13 14:31:25 · 730 阅读 · 0 评论 -
Flink大数据计算的机遇与挑战
本文来自于王绍翾在2018年08月11日Flink China Meetup。 王绍翾,花名“大沙”,加州大学圣迭戈分校计算机工程的博士,Apache Flink Commiter。目前在阿里负责Flink平台以及生态的一些工作。转载: https://blog.csdn.net/weixin_42967833/article/details/82086362本文内容如下:流计算核...转载 2018-08-28 13:27:45 · 736 阅读 · 0 评论 -
Spark入门教程(Scala版)
http://dblab.xmu.edu.cn/blog/spark/转载 2018-08-28 09:11:17 · 4993 阅读 · 0 评论 -
Apache Flink状态管理和容错机制介绍
转载:https://mp.weixin.qq.com/s/bJfPyXa9WyqE-W68a7jrcw 本文由韩非(Flink China社区志愿者)整理自8月11日在北京举行的 Flink Meetup 会议。分享嘉宾施晓罡,目前在阿里大数据团队部从事Blink方面的研发,现在主要负责Blink状态管理和容错相关技术的研发。本文主要内容如下: 有状态的流数据处理 ...转载 2018-08-27 17:15:03 · 743 阅读 · 0 评论 -
Apache Flink 1.6.0 正式发布,涵盖多项重要更新
转载: https://mp.weixin.qq.com/s/n_K9JvJPjiH1HKlf8vywIA 为期两个月开发的 Apache Flink 1.6.0 于昨天(2018-08-09)正式发布了。Flink 社区艰难地解决了 360 个 issues,到这里查看完整版的 changelog 。Flink 1.6.0 是 1.x.y 版本系列上的第七个版本,1.x.y 中所有使用 ...转载 2018-08-10 13:32:34 · 344 阅读 · 0 评论 -
Hive 快速入门(全面)
转载: https://www.codercto.com/a/5110.html前言我写这篇文章的目的是尽可能全面地对Hive进行入门介绍,这篇文章是基于hive-1.0.0版本介绍的,这个版本的Hive是运行在MapReduce上的,新的版本可以运行在Tez上,会有一些不同。Hive是对数据仓库进行管理和分析数据的工具。但是大家不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,...转载 2018-07-30 16:11:56 · 9065 阅读 · 2 评论 -
HBase底层存储原理
转载:https://www.cnblogs.com/panpanwelcome/p/8716652.htmlHBase底层存储原理——我靠,和cassandra本质上没有区别啊!都是kv 列存储,只是一个是p2p另一个是集中式而已! 首先HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库.另一个不同的是HBase基于列的而不是基于行的模式. 什么是BigTable:Bigt...转载 2018-07-13 18:00:49 · 3933 阅读 · 0 评论 -
《hadoop学习》关于hdfs中的namenode和datanode详解
转载:https://www.cnblogs.com/forget-me-not/p/5749256.htmlnamenode:Namenode是中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名称空间(namespace)以及客户端对文件的访问。文件操作,Namenode负责文件元数据的操作,DataNode负责处理文件内容的读写请求,跟文件内容相关的数据流不会经过Namenod...转载 2018-07-12 10:14:19 · 2084 阅读 · 0 评论 -
HBase深度简介
转载自:https://blog.csdn.net/jiangtao_st/article/details/19499923高江涛个人博客一、简介Hbase:全名Hadoop DataBase,是一种开源的,可伸缩的,严格一致性(并非最终一致性)的分布式存储系统。具有最理想化的写和极好的读性能。它支持可插拔的压缩算法(用户可以根据其列族中的数据特性合理选择其压缩算法),充分利用了磁盘空...转载 2018-11-16 16:48:01 · 690 阅读 · 2 评论