大数据
文章平均质量分 71
Ding_xiaofei
程序员
展开
-
hive骚操作
LATERAL VIEW explode很多时候我们希望把一个json,或者list拆成多行,这种在关系数据库里面是不允许的。但是hive还是能够进行这样的操作https://blog.csdn.net/guodong2k/article/details/79459282https://www.deeplearn.me/2892.html主要作用是行转列...原创 2019-11-01 15:09:06 · 284 阅读 · 0 评论 -
大数据算法(亚线性算法)
亚线性算法的定义关于亚线性算法,就是字面上的意思(ps:下面的一些截图定义来源于哈工大王老师的课件);整个大数据算法的系列博客的主要内容也来源王老师在中国大学mooc上的同名课程,大家如果有什么疑问,可以去中国大学mooc上去查看相应的视频讲解,也可以在我的博客下面留言。这边主要是讲时间和空间两大类算法。...原创 2018-10-23 21:06:26 · 1923 阅读 · 0 评论 -
大数据算法(概述)
大数据算法的难度访问全部数据时间过长读取部分数据 时间亚线性算法数据难以放入内存计算将数据存储到磁盘上 外存算法仅基于少量数据进行计算 空间亚线性算法单个计算机难以保存全部数据,计算需要整体数据并行处理 并行算法计算机计算能力不足或者知识不足人来做(众包)我们学习的hadoop、spark不过是解决了其中一个难题。我们整个笔记也是围绕上面几个问...原创 2018-10-22 08:37:21 · 3372 阅读 · 0 评论 -
HDFS面试问题整理
1、hdfs读取流程,小文件处理 2、hdfs的数据压缩算法 3、datanode什么情况下不会进行备份 4、hdfs的体系结构 5、hdfs的存储机制 6、hdfs的基本原理 7、hdfs上传文件的流程 8、HADOOP1.0和2.0HDFS的BLOCK各为多少?...原创 2018-09-13 08:44:39 · 1992 阅读 · 0 评论 -
数据库以及SQL的一些面试题整理(2018年秋招)
1、MySQL用的挺多,问你一下,innodb的b+树索引,主键索引,聚簇索引有什么区别。 2、MySQL里有哪些锁,行锁表锁,乐观锁呢,我说了版本号和MVVC,开始问我MVVC。 3、事务的实际场景问题,两个事务,一个查一个新增,问能否查到新增的,我问他隔离级别,他说RR。MySQL的RR避免幻读,所以读不到新增数据。 4、MySQL的死锁怎么产生的,举了两个例子。 5、三个事务,两个加...原创 2018-09-11 16:50:26 · 1354 阅读 · 0 评论 -
大数据笔记
介绍主要分为两个部分,首先是大数据的概述,会介绍各种类型的大数据框架和相应的技术,其次是spark的笔记大数据原理大数据笔记(一):HDFSIntellij idea下hadoop的开发环境搭建和相应的编程实践(HDFS)大数据笔记(二):HBase大数据笔记(三):Map-Reduce大数据笔记(四):Hive大数据笔记(五):Hadoop大数据笔记(六):S...原创 2018-08-08 09:19:17 · 565 阅读 · 0 评论 -
大数据笔记spark篇(二):pyspark的安装
开篇关于spark的配置其实没有必要详细地写,这边我放上我学习参考的厦门大学的博客,拖了n年,我总算把单机版的spark给安装上了。环境变量export JAVA_HOME=/usr/lib/jvm/default-javaexport HADOOP_HOME=/usr/local/hadoopexport SPARK_HOME=/usr/local/sparkexport ...原创 2018-06-08 22:03:37 · 2845 阅读 · 1 评论 -
大数据笔记(六):Spark
spark简介Spark具有如下几个主要特点: •运行速度快:使用DAG执行引擎以支持循环数据流与内存计算 •容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程 •通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法组件 •运行模式多样:可运行于独立的集群模式中,可运行于Hadoop中,也...原创 2018-05-30 23:29:16 · 928 阅读 · 0 评论 -
大数据笔记:spark篇(一)
开篇学了两天scala,有点头大,心静不下来,这边还是整理林博士的spark教程,编程语言是python,这样我可能会好受点。详细内容见链接。我希望突出重点,写出简洁的笔记,同时也能同步自己的困惑。...原创 2018-06-06 15:24:11 · 417 阅读 · 0 评论 -
大数据笔记(五):Hadoop
Hadoop的优化和发展Hadoop的局限和不足Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、 Hive、 HBase等其他组件),主要存在以下不足: •抽象层次低,需人工编码 •表达能力有限 •开发者自己管理作业( Job) 之间的依赖关系 •难以看到程序整体逻辑 •执行迭代操作效率低 •资源浪费( Map和Reduce...原创 2018-05-28 21:01:04 · 779 阅读 · 0 评论 -
大数据笔记(四):Hive
Hive概述数据仓库的概念传统数据仓库面临的挑战• ( 1)无法满足快速增长的海量数据存储需求 • ( 2)无法有效处理不同类型的数据 • ( 3) 计算和处理能力不足数据库和数据仓库的区别数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。 数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Pro...原创 2018-05-26 23:31:21 · 681 阅读 · 0 评论 -
大数据笔记(三):Map-Reduce
分布式并行编程在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架了,那么为什么Google还需要MapReduce? MapReduce相较于传统的并行计算框架有什么优势? MapReduce模型简介•MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数: Map和Reduce •编程容易,不需要掌握分布式并行编程细节,也可以很容易...原创 2018-05-25 21:24:45 · 3252 阅读 · 0 评论 -
大数据笔记(一):HDFS
开篇这是一篇学习笔记,绝大部分内容来自于厦门大学的大数据课程,这边是课程在中国大学mooc上的链接大数据技术原理,希望这篇笔记能够帮助我记录重要的知识点,也帮助大家顺利地理解HDFS是什么? 云计算的两个要点,分布式存储和分布式处理,这里的HDFS就是分布式文件系统,也就是要点之一的分布式存储。OK,我们下面正式开始这篇的内容,HDFS。我们按照林老师上课的思路来记录我们的笔记。我们将重点讲...原创 2018-05-07 13:12:39 · 1397 阅读 · 0 评论 -
Intellij idea下hadoop的开发环境搭建和相应的编程实践(HDFS)
开篇先简单描述一下这边博客主要要讲的内容,首先是配置idea可以编写hadoop的程序,然后是一个操作hdfs的小程序演示。Hadoop的搭建一直跟随的是厦门大学林老师的课程,这边是hadoop的搭建教程的链接,我是用自己的机子搭建的单机伪分布式。所以下面的一些操作都是适用于单机伪分布式的。idea开发环境的搭建这边需要我们做的是两件事,导入jar包,林老师的教程就让我导入了两...原创 2018-05-19 17:17:06 · 13929 阅读 · 10 评论 -
HDFS编程实践
Hadoop的安装厦门大学大数据 条件有限,这边使用的是单机伪分布式,安装的教程大家可以参考上面的链接HDFS的基本操作首先讲一下基本命令,这边是分布式文件系统,其实很多shell的操作都是适用的。在使用hdfs之前我们需要先启动一下hadoop,这边我们使用以下命令 这样写还是太长了 我们可以把这些命令都添加到bash里面,只要在path里面添加hadoop的bin和s...原创 2018-05-19 10:36:57 · 1292 阅读 · 0 评论 -
大数据笔记(二):HBase
开篇重要的视频链接在我的第一篇大数据笔记里面都已经更新了,关于环境的配置在后面的改版博客里面会陆续给出,现在新版本可能有些特性已经被修改了,但是基本思想还是在的,希望能够帮助自己记忆,也帮助大家去梳理HBase的基本知识点。话不多说,下面正式开始我们今天的博客内容。内容提要HBase概述HBase访问接口HBase数据模型HBase的实现原理HBase运行机制HBase应用...原创 2018-05-10 15:26:18 · 1396 阅读 · 0 评论