大数据
burpee
这个作者很懒,什么都没留下…
展开
-
百万数据解析-python-oss-python(2-历史数据)
上传oss工具安装阿里文档:实际运行,如下图:服务器历史文件:3000多个 100多G经过解析后的txt文件:调用命令上传文件:oss结果:新建odps外表及设立分区:使用数据:小插曲:建表时最好用String,因为可能存在脏数据,odps在转换成 bigint 或者 decimal的时候可能会报错。...原创 2020-10-20 16:17:07 · 202 阅读 · 0 评论 -
百万数据解析-python-oss-python
需求:1、每天的分钟K线数据,格式:pkl,大小:40M左右,量级:百万, 历史:3000左右个同类型文件 增量:每天一个文件2、落地数仓ODPS,每天一个分区,用来做数据分析建模环境:本机:8核 3.4G 16G内存开发环境:python3.7上传OSS工具:ossutil Windows x86 64bit 版本 ossutil64.ziphttps://help.aliyun.com/document_detail/120075.html...原创 2020-10-19 10:13:31 · 633 阅读 · 0 评论 -
Phoenix常用命令 操作hbase
1、登录命令./sqlline.py localhost:2181:/hbase-unsecurephoenix-sqlline localhost:2181:/hbase-unsecure2、退出!quit!exit3、帮助4、列出metadata信息5、创建表create table if not exists ljc.stud...转载 2019-07-18 09:17:52 · 3103 阅读 · 0 评论 -
HBase介绍
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系转载 2017-12-13 17:20:09 · 868 阅读 · 0 评论 -
zookeeper详解
ZooKeeper概述 原文地址:https://www.cnblogs.com/wuxl360/p/5817471.htmlZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。由于ZooKeeper的开源特性,后来我们的开发者在分布式锁的基础上,摸索了出了其他的使用方法:配置维护、组服务、分布式消息队列、分布转载 2017-12-12 14:18:21 · 374 阅读 · 0 评论 -
ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用
原文地址:http://blog.jobbole.com/110388/ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式转载 2017-12-12 09:38:25 · 242 阅读 · 0 评论 -
全面介绍ZooKeeper原理及使用
原文写的非常好,地址:http://www.wuzesheng.com/?p=2609ZooKeeper是Hadoop Ecosystem中非常重要的组件,它的主要功能是为分布式系统提供一致性协调(Coordination)服务,与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper,第一部分介绍ZooKeeper的基本原理,第二部分介转载 2016-10-14 08:32:15 · 3632 阅读 · 0 评论 -
分布式消息系统:Kafka
Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。原文:http://blog.jobbole.com/75328/在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低转载 2017-12-11 16:48:43 · 5191 阅读 · 0 评论 -
ELK=Elasticsearch+Logstash+kibana
ELK:在一个典型的使用场景下(ELK):用Elasticsearch作为后台数据的存储,kibana用来前端的报表展示。Logstash在其过程中担任搬运工的角色,它为数据存储,报表查询和日志解析创建了一个功能强大的管道链。Logstash提供了多种多样的 input,filters,codecs和output组件,让使用者轻松实现强大的功能。转载 2017-12-11 16:00:00 · 244 阅读 · 0 评论 -
大数据处理模式 hadoop storm spark
对于仅需要批处理的工作负载,如果对时间不敏感,比其他解决方案实现成本更低的Hadoop将会是一个好选择。 对于仅需要流处理的工作负载,Storm可支持更广泛的语言并实现极低延迟的处理,但默认配置可能产生重复结果并且无法保证顺序。Samza与YARN和Kafka紧密集成可提供更大灵活性,更易用的多团队使用,以及更简单的复制和状态管理。 对于混合型工作负载,Spark可提供高速批处转载 2017-12-11 15:35:54 · 3661 阅读 · 0 评论 -
MapReduce详解
1.1 MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。1.2 MapReduce做什么转载 2017-12-11 09:26:41 · 100602 阅读 · 2 评论 -
学习hadoop
原文转自:http://blog.csdn.net/it_man/article/details/14899905主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra,转载 2016-05-20 16:33:44 · 408 阅读 · 0 评论 -
Hadoop各商业发行版之比较
Hadoop的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,华为等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各发行版做简单介绍。 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop转载 2016-05-20 15:12:54 · 23282 阅读 · 0 评论 -
hadoop的应用场景分析
其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据?带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业务场景了!!!如果关系型数据库都能应付的工作还需要hadoop吗?比如1.银行的信用卡业务,当你正在刷卡完一笔消费的那一瞬间,假如在你当天消费基础上再消费满某个额度,你就可以免费获得某种令你转载 2016-03-03 17:02:36 · 1630 阅读 · 0 评论