大数据
非特定开源引擎的相关笔记
书忆江南
https://github.com/hackeryang
展开
-
大数据算法基础笔记
一、分类算法:对数据分类和预测1. KNN算法即K近邻(K Nearest Neighbour)算法,是一种基本的分类算法,其主要原理是:对于一个需要分类的数据,将其和一组已经分类标注好的样本集合进行比较,得到距离最近的K个样本,K个样本最多归属的类别,就是这个需要分类数据的类别。下面是KNN算法的原理图:上图中,红蓝绿三种颜色的点为样本数据,分属三种类别ω1、ω2和ω3。对于待分类点Xu,计算和它距离最近的5个点即K为5,这5个点最多归属的类别为ω1(4个点归属ω1,1个点归属ω3),那原创 2020-06-01 10:53:34 · 2888 阅读 · 0 评论 -
ZooKeeper基础知识笔记(含3节点伪分布式安装配置流程)
本笔记涉及代码:https://github.com/hackeryang/Hadoop-Exercises/tree/master/src/main/java/ZooKeeper一、ZooKeeper介绍与安装1.ZooKeeper是Hadoop的分布式协调服务,名称起作“动物管理员”是因为它可以管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)等大数据组件。多台服务器并行计算响...原创 2019-03-17 11:09:12 · 1146 阅读 · 0 评论 -
Hive基础知识笔记(含MySQL metastore伪分布式安装配置流程)
该笔记涉及代码:https://github.com/hackeryang/Hadoop-Exercises/tree/master/src/main/java/Hive一、介绍1.Hive是一个构建在Hadoop平台上的用类似SQL的语句HQL来协助读写与管理分布式系统上大数据集的数据仓库框架。可以将结构化的数据文件映射成一张数据库表,将类SQL语句转换为MapReduce任务运行,几行...原创 2019-03-11 22:49:24 · 798 阅读 · 0 评论 -
Spark1.6基础知识笔记(含安装配置流程)
1.Spark是用于大数据处理的集群计算框架,它不以MapReduce作为执行引擎,而是使用自己的分布式运行环境在集群上工作,可以在YARN上运行并与HDFS配合。Spark最突出的特点是能将作业与作业之间产生的大规模中间工作数据集存储在内存中,在性能上超过中间数据也在磁盘读写的MapReduce一个数量级。从Spark中可以提升性能最大的是迭代算法(对一个数据集重复应用某函数)和交互式分析(用户...原创 2018-09-03 17:58:09 · 1031 阅读 · 0 评论 -
Hadoop集群管理基础知识笔记
1.Hadoop集群尽量采用ECC内存,否则可能会出现校验和错误,ECC内存有纠错功能。在磁盘方面,尽管namenode建议采用RAID以保护元数据,但是将RAID用于datanode不会给HDFS带来益处,速度依然比HDFS的JBOD(Just a Bunch Of Disks)配置慢。RAID读写速度受制于最慢的盘片,JBOD的磁盘操作都是独立的。而且JBOD配置的HDFS某一磁盘故障可以直接...原创 2018-08-25 21:58:19 · 2078 阅读 · 0 评论 -
HBase基础知识笔记(含安装配置与开发环境避坑流程)
笔记涉及代码:https://github.com/hackeryang/Hadoop-Exercises1.HBase是一个在HDFS上开发的面向列的分布式数据库,用于实时地随机访问超大规模数据集。原本的关系型数据库并非为大规模可伸缩的分布式处理而设计,虽然也有复制(replication)和分区(partitioning)的改善方案,让数据库能够从单个节点扩展出去,但难以安装与维护,而且会...原创 2018-08-28 22:34:59 · 1528 阅读 · 0 评论 -
MapReduce学习笔记
笔记代码GitHub:https://github.com/hackeryang/Hadoop-Exercises一、MapReduce应用1.在使用IDE开发MapReduce应用时,在maven工程的pom.xml文件中需要加入对hadoop-client的依赖,它包含了和HDFS及MapReduce交互所需要的所有Hadoop client-side类,如下所示:<dep...原创 2018-08-20 22:29:28 · 1457 阅读 · 0 评论 -
Hadoop基础知识笔记
学习笔记相关代码:https://github.com/hackeryang/Hadoop-Exercises一、基础1. Hadoop分布式文件系统( HDFS) 分布在集群内多台机器上。使用适度的复制,集群可以并行读取数据,进而提供很高的吞吐量。这样一组通用机器比一台高端服务器更加便宜。代码向数据迁移的理念被应用在Hadoop集群自身。这种理念符合Hadoop面向数据密集型处理的设计目...原创 2018-08-08 09:18:05 · 6826 阅读 · 0 评论 -
Intellij IDEA开发Hadoop伪分布式应用
在上一篇博客中(https://blog.csdn.net/qq_33588730/article/details/81123614)安装CDH5.15.0之后,安装好的是单机版Hadoop,并且准备好了伪分布式与全分布式需要的ssh远程登录配置,现在试试将Hadoop以伪分布式方式来运行,并用流行的Java开发软件Intellij IDEA来学习和开发Hadoop应用。一、将Hadoop(C...原创 2018-07-26 22:35:05 · 7116 阅读 · 3 评论 -
Hadoop2.6.0(cloudera CDH)安装教程
第一步是安装JDK,我用的方法比较简单不需要麻烦的配置环境变量等步骤,直接通过第三方的JDK安装包自动装好,命令如下:sudo add-apt-repository ppa:webupd8team/javasudo apt-get updatesudo apt-get install oracle-java8-installer第一条命令是添加PPA软件源,第二条命令是更新软件源信息...原创 2018-07-19 22:20:14 · 5224 阅读 · 7 评论