云计算
文章平均质量分 71
Ding_xiaofei
程序员
展开
-
大数据笔记(二):HBase
开篇重要的视频链接在我的第一篇大数据笔记里面都已经更新了,关于环境的配置在后面的改版博客里面会陆续给出,现在新版本可能有些特性已经被修改了,但是基本思想还是在的,希望能够帮助自己记忆,也帮助大家去梳理HBase的基本知识点。话不多说,下面正式开始我们今天的博客内容。内容提要HBase概述HBase访问接口HBase数据模型HBase的实现原理HBase运行机制HBase应用...原创 2018-05-10 15:26:18 · 1386 阅读 · 0 评论 -
大数据笔记spark篇(二):pyspark的安装
开篇关于spark的配置其实没有必要详细地写,这边我放上我学习参考的厦门大学的博客,拖了n年,我总算把单机版的spark给安装上了。环境变量export JAVA_HOME=/usr/lib/jvm/default-javaexport HADOOP_HOME=/usr/local/hadoopexport SPARK_HOME=/usr/local/sparkexport ...原创 2018-06-08 22:03:37 · 2832 阅读 · 1 评论 -
大数据笔记(六):Spark
spark简介Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也...原创 2018-05-30 23:29:16 · 923 阅读 · 0 评论 -
大数据笔记(五):Hadoop
Hadoop的优化和发展Hadoop的局限和不足Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、 Hive、 HBase等其他组件),主要存在以下不足: •抽象层次低,需人工编码 •表达能力有限 •开发者自己管理作业( Job) 之间的依赖关系 •难以看到程序整体逻辑 •执行迭代操作效率低 •资源浪费( Map和Reduce...原创 2018-05-28 21:01:04 · 773 阅读 · 0 评论 -
大数据笔记(四):Hive
Hive概述数据仓库的概念传统数据仓库面临的挑战• ( 1)无法满足快速增长的海量数据存储需求 • ( 2)无法有效处理不同类型的数据 • ( 3) 计算和处理能力不足数据库和数据仓库的区别数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Pro...原创 2018-05-26 23:31:21 · 675 阅读 · 0 评论 -
大数据笔记(三):Map-Reduce
分布式并行编程在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架了,那么为什么Google还需要MapReduce? MapReduce相较于传统的并行计算框架有什么优势? MapReduce模型简介•MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数: Map和Reduce •编程容易,不需要掌握分布式并行编程细节,也可以很容易...原创 2018-05-25 21:24:45 · 3240 阅读 · 0 评论 -
大数据笔记(一):HDFS
开篇这是一篇学习笔记,绝大部分内容来自于厦门大学的大数据课程,这边是课程在中国大学mooc上的链接大数据技术原理,希望这篇笔记能够帮助我记录重要的知识点,也帮助大家顺利地理解HDFS是什么? 云计算的两个要点,分布式存储和分布式处理,这里的HDFS就是分布式文件系统,也就是要点之一的分布式存储。OK,我们下面正式开始这篇的内容,HDFS。我们按照林老师上课的思路来记录我们的笔记。我们将重点讲...原创 2018-05-07 13:12:39 · 1388 阅读 · 0 评论 -
Intellij idea下hadoop的开发环境搭建和相应的编程实践(HDFS)
开篇先简单描述一下这边博客主要要讲的内容,首先是配置idea可以编写hadoop的程序,然后是一个操作hdfs的小程序演示。Hadoop的搭建一直跟随的是厦门大学林老师的课程,这边是hadoop的搭建教程的链接,我是用自己的机子搭建的单机伪分布式。所以下面的一些操作都是适用于单机伪分布式的。idea开发环境的搭建这边需要我们做的是两件事,导入jar包,林老师的教程就让我导入了两...原创 2018-05-19 17:17:06 · 13916 阅读 · 10 评论 -
HDFS编程实践
Hadoop的安装厦门大学大数据 条件有限,这边使用的是单机伪分布式,安装的教程大家可以参考上面的链接HDFS的基本操作首先讲一下基本命令,这边是分布式文件系统,其实很多shell的操作都是适用的。在使用hdfs之前我们需要先启动一下hadoop,这边我们使用以下命令 这样写还是太长了 我们可以把这些命令都添加到bash里面,只要在path里面添加hadoop的bin和s...原创 2018-05-19 10:36:57 · 1282 阅读 · 0 评论 -
大数据算法(概述)
大数据算法的难度访问全部数据时间过长读取部分数据 时间亚线性算法数据难以放入内存计算将数据存储到磁盘上 外存算法仅基于少量数据进行计算 空间亚线性算法单个计算机难以保存全部数据,计算需要整体数据并行处理 并行算法计算机计算能力不足或者知识不足人来做(众包)我们学习的hadoop、spark不过是解决了其中一个难题。我们整个笔记也是围绕上面几个问...原创 2018-10-22 08:37:21 · 3361 阅读 · 0 评论