大数据学习
文章平均质量分 81
yunpiao123456
这个作者很懒,什么都没留下…
展开
-
Zookeeper基本原理与应用场景
Zookeeper是一个针对大型分布式系统的可靠协调系统。提供的功能包括:配置维护、名字服务、分布式同步、组服务等。目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Zookeeper已经成为Hadoop生态系统中的基础组件。Zookeeper有如下特点: 最终一致性:为客户端展示同一视图,这是zookeeper最重要的功能。原创 2016-07-12 14:48:02 · 4706 阅读 · 0 评论 -
Hbase编程实践
Hbase 访问方式 Hbase 访问方式包括: (2)、Native Java API :最常规和高效的访问方式; (3)、HBase Shell : HBase的命令行工具,最简单的接口,适合HBase管理使 用; (4)、Thrift Gateway :利用Thrift序列化技术,支持原创 2016-07-06 21:29:57 · 3086 阅读 · 0 评论 -
Hbase的应用场景、原理及架构分析
HBase概述 HBase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要 一员,主要用于海量结构化数据存储。从逻辑上讲,HBase将数据按照表、行和列进行存储。 如图所示,Hbase构建在HDFS之上,Hadoop之下。其内部管理的文件全部存储在HDFS中。与HDFS相比两者都具有良好的容错性原创 2016-07-06 20:17:54 · 1863 阅读 · 1 评论 -
MapReduce 2.0编程实践(涉及多语言编程)
Hadoop提供了三种编程方式:Java(最原始的方式、Hadoop Streaming(支持多语言)以及Hadoop Pipes(支持C/C++)。Java编程接口是所有编程方式的基础。不同的编程接口只是暴露给用户的形式不同而已,内部执行引擎是一样的。不同编程方式效率不同。 与Linux管道机制一致,通过标准输入输出实现进程间通信 。 几个举例:原创 2016-07-05 20:21:56 · 3852 阅读 · 1 评论 -
MapReduce 2.0应用场景、原理与基本架构
现介绍计算框架MapReduce。MapReduce一个应用场景是有大量文件,里面存储了单词, 且一个单词占一行 。执行任务是如何统计每个单词出现的次数? 类似应用场景有搜索引擎中,统计最流行的K个搜索词以及统计搜索词频率,帮助优化搜索词提示 。 MapReduce将作业的整个运行过程分为两个阶段 :Map阶段和Reduce阶段 Map阶段由一定数量的Map原创 2016-07-05 19:15:36 · 5103 阅读 · 0 评论 -
Hadoop生态系统概述
已经不是第一天接触hadoop了,但是系统的学习一直没有进行,为了能更快的成长,决定从今天开始系统的学习大数据。并做相关技术记录。ps:希望不要三分钟热度,半途而废。要为未来的战争时刻准备着...第一次接触hadoop是在清华大学网络研究院,并对此产生浓厚的兴趣。 以上都是题外话,下面开始切入正题,本系列文章打算以hadoop为起点,围绕其对hbase、hive、pig、sqoo原创 2016-07-01 16:12:43 · 4649 阅读 · 0 评论 -
Yarn的原理与资源调度
本节,主要介绍yarn的基本原理以及资源调度。在hadoop1.0不能满足多系统集成的背景下孕育了yarn的产生。由于多分布式系统可以很好的集成,因此yarn的出现使得整个集群的运维成本大大降低。同时,yarn可以很好的利用集群资源,避免资源的浪费。除此之外,yarn的出现实现了集群的数据共享问题。不同的分布式计算框架可以实现数据的共享,比如hadoop的mapreduce输出可以作为storm的原创 2016-07-01 19:24:36 · 17701 阅读 · 0 评论 -
数据分析系统Hive
Hive概述 Hive是由facebook开源,最初用于解决海量结构化的日志数据统计问题。其是构建在Hadoop之上的数据仓库。数据计算使用MR,数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL。类似SQL,但不完全相同。通常用于进行离线数据处理(采用MapReduce)。可认为Hive是一个HQL-MR的语言翻译器。 上述代码是ma原创 2016-07-13 15:27:08 · 1011 阅读 · 0 评论 -
Hadoop数据收集与入库系统Flume与Sqoop
Hadoop提供了一个中央化的存储系统,其有利于进行集中式的数据分析与数据共享。 Hadoop对存储格式没有要求。可以存储用户访问日志、产品信息以及网页数据等数据。 常见的两种数据来源。一种是分散的数据源:机器产生的数据、用户访问日志以及用户购买日志。另一种是传统系统中的数据:传统关系型数据库(MySQL、Oracle)、磁盘阵列以及磁带。 Flume由原创 2016-07-12 20:09:29 · 8500 阅读 · 0 评论 -
Spark 实战(四)
ALS是交替最小二乘法ALS是交替最小二乘的简称。在Spark MLlib中特指通过交替最小二乘法求解的协同推荐算法。它通过观察所有用户给产品打分,来推断每个用户的喜好并向用户推荐适合的产品。用户评分矩阵的每行代表一个用户,每列代表一个物品。我们认为用户评分矩阵是由用户特征矩阵U乘以物品特征矩阵V得到。即A = U*V。因此,如果知道了U、V就不难求得A。ALS假设打分矩阵A是近似低秩的,原创 2017-04-10 09:36:03 · 1376 阅读 · 1 评论