Hadoop
dzysunshine
爱打篮球,爱跑步,爱学算法
展开
-
Map-Reduce
Map-Reduce集群运算时问题的解决方案 在多节点上冗余地存储数据, 以保证数据的持续性和一直可取性 将计算移向数据端, 以最大程度减少数据移动 简单的程序模型隐藏所有的复杂度...原创 2019-04-27 20:38:24 · 156 阅读 · 0 评论 -
海量高维数据与纬度约减
文章目录1.为什么要数据降维?2.为什么能数据降维?3.SVD(奇异值分解)4.SVD进行降维5.SVD降维的特点6.CUR分解1.为什么要数据降维?海量数据太大,不得不降维可以使简单的模型运算的更快,更容易理解,更容易维护优质的降维数据可以在使用不是最优的模型参数的情况下得到不错的预测结果2.为什么能数据降维?可以假设,数据实际上是存在或者靠近一个低维子空间中,子空间的坐标轴能...原创 2019-05-07 17:22:56 · 433 阅读 · 0 评论 -
Hive原理及其使用(六)
文章目录1. 安装MySQL、Hive2. 采用MySQL作为hive元数据库3. Hive与传统RDBMS的区别4. Hive原理及架构图5. HQL的基本操作(Hive中的SQL)6. Hive内部表/外部表/分区【Task6】Hive原理及其使用安装MySQL、Hive采用MySQL作为hive元数据库Hive与传统RDBMS的区别HIve原理及架构图HQL的基本操作(Hive中...原创 2019-08-07 20:54:59 · 616 阅读 · 0 评论 -
实践(七)
文章目录1. 计算每个content的CTR2. 使用Spark实现ALS矩阵分解算法3. 使用Spark分析Amazon DataSet(实现 Spark LR、Spark TFIDF)【Task7】实践计算每个content的CTR数据集下载:链接:https://pan.baidu.com/s/1YDvBWp35xKLg5zsysEjDGA 提取码:rpgs【选做】 使用Spark实...原创 2019-08-09 22:32:03 · 397 阅读 · 0 评论 -
搭建Hadoop集群(二)
文章目录1. 搭建HA的Hadoop集群1. 创建另外两个虚拟机2. 配置集群ssh免密码登录【Task 2】搭建Hadoop集群(3day)搭建HA的Hadoop集群并验证,3节点(1主2从),理解HA/Federation,并截图记录搭建过程阅读Google三大论文,并总结Hadoop的作用(解决了什么问题)/运行模式/基础组件及架构学会阅读HDFS源码,并自己阅读一段HDFS的源...原创 2019-07-27 15:01:36 · 350 阅读 · 0 评论 -
Spark常用API(五)
文章目录1. spark集群搭建2. 初步认识Spark3. 理解spark的RDD4. 使用shell方式操作Spark,熟悉RDD的基本操作5. 使用jupyter连接集群的pyspark6. 理解Spark的shuffle过程7. 学会使用SparkStreaming8. 说一说take,collect,first的区别,为什么不建议使用collect?9. 向集群提交Spark程序10. ...原创 2019-08-05 14:02:47 · 6360 阅读 · 1 评论 -
MapReduce+MapReduce执行过程(四)
【Task4】MapReduce+MapReduce执行过程MR原理使用Hadoop Streaming -python写出WordCount使用mr计算movielen中每个用户的平均评分。使用mr实现merge功能。根据item,merge movielen中的 u.data u.item使用mr实现去重任务。使用mr实现排序。使用mapreduce实现倒排索引。使用mapre...原创 2019-07-31 23:35:32 · 833 阅读 · 0 评论 -
HDFS常用命令/API+上传下载过程(三)
文章目录1. Hadoop1.1 Hadoop发展历程2. Hadoop的作用(解决了什么问题)/运行模式/基础组件及架构3.学会阅读HDFS源码,并自己阅读一段HDFS的源码(推荐HDFS上传/下载过程)4. Hadoop中各个组件的通信方式,RPC/Http等5. 学会写WordCount(Java/Python-Hadoop Streaming)6. 理解MapReduce的执行过程7. Y...原创 2019-07-31 14:15:06 · 2037 阅读 · 0 评论 -
使用VirtualBox安装Centos(一)
文章目录1. 创建三台虚拟机【Task1】创建虚拟机+熟悉linux(2day)创建三台虚拟机在本机使用Xshell连接虚拟机CentOS7配置阿里云yum源和EPEL源安装jdk熟悉linux 常用命令熟悉,shell 变量/循环/条件判断/函数等shell小练习1:编写函数,实现将1-100追加到output.txt中,其中若模10等于0,则再追加...原创 2019-07-25 16:58:32 · 547 阅读 · 0 评论 -
Hadoop学习系列(一)
文章目录1、大数据2、Hadoop是什么3、Hadoop发展历史 ( Google是Hadoop的思想之源)4、Hadoop的优势(4高)5、Hadoop1.x和2.x的区别6、HDFS架构概述7、YARN架构概述8、MapReduce架构概述9、大数据技术生态体系1、大数据功能:主要是解决海量数据的存储和海量数据的分析计算问题(TB、PB、EB)特点:大量,计算机硬盘的容量为TB级别...原创 2019-07-01 15:53:23 · 918 阅读 · 0 评论