ML&DL-大数据学习
Zero-One-0101
小菜鸟一枚,正在成长中!
展开
-
处理机器学习大数据的7种方法
文章目录目录1.分配更多的内存2.使用较小的样本3.将数据提交至服务器上4.更改数据格式5.使用数据流方式或者逐行读入的方法6.使用关系数据库7.使用大数据平台目录在实际的生产过程中,我们经常会遇到数据文件太大,而无法直接读入到计算机中进行处理,或者因为数据量太大,读入内存后运行出错。因此,如何解决大数据的读入问题是解决大数据机器学习的第一步。1.分配更多的内存如果硬件可以支持分配更多...原创 2019-03-18 08:32:18 · 2566 阅读 · 0 评论 -
大数据学习(09)--Hadoop2.0介绍
文章目录目录1.Hadoop的发展与优化1.1 Hadoop1.0 的不足与局限1.2 Hadoop2.0 的改进与提升2.HDFS2.0 的新特性2.1 HDFS HA2.2 HDFS Federation3. 新一代的资源管理器YARN3.1 MapReduce1.0 缺陷3.2 YARN的设计思路3.3 YARN 体系结构3.4 YARN工作流程3.5 YARN框架与MapReduce1.0...原创 2019-04-10 09:37:47 · 898 阅读 · 0 评论 -
初探函数式编程和面对对象式编程
文章目录目录1.函数式编程和面向对象编程概念1.1 函数式编程1.2 面向对象编程2.函数式编程和面向对象编程的优缺点2.1 函数式编程优点缺点2.2 面对对象编程优点缺点3.为什么在并行计算中函数式编程比较好3.1 什么是并行计算3.2 函数式编程兴起原因目录1.函数式编程和面向对象编程概念1.1 函数式编程什么是函数式编程?在维基百科中给出了详细的定义,函数式编程(英语:functio...原创 2019-04-09 15:37:39 · 638 阅读 · 0 评论 -
大数据学习(2-2)- 使用docker安装配置Hadoop环境
我的思路是这样:安装ubuntu系统---->下载docker---->在docker里拉取hadoop镜像---->在此镜像里创建三个容器(Master、Slave1、Slave2)---->完成完全分布式1. 安装ubuntu系统(无论你是安装的单系统,...转载 2019-03-29 13:53:25 · 934 阅读 · 0 评论 -
大数据学习(08)--Hadoop中的数据仓库Hive
文章目录目录1.什么是数据仓库?1.1数据仓库概念1.2传统数据仓库面临的挑战1.3 Hive介绍1.4 Hive与传统数据库的对比1.5 Hive在企业中的部署与应用2.Hive系统架构3.Hive工作原理3.1 SQL转换为MapReduce作业的基本原理3.2 Hive中SQL查询转换MapReduce作业的过程4.Hive HA基本原理5.Impala5.1 Impala介绍5.2 Imp...原创 2019-04-08 17:09:46 · 3700 阅读 · 0 评论 -
大数据学习(07)--MapReduce
文章目录目录1.MapReduce介绍1.1 什么是分布式并行编程?1.2 MapReduce模型介绍1.3 map和reduce函数2.MapReduce体系架构3.MapReduce工作流程3.1 概述3.2 MapReduce各个阶段介绍3.3 shuffle过程介绍3.3.1 shuffle过程简介3.3.2 map中的shuffle过程3.3.3 reduce中的shuffle过程3.3...原创 2019-04-08 16:35:07 · 2594 阅读 · 1 评论 -
大数据学习(2-1)-Hadoop安装教程-单机模式和伪分布模式(Ubuntu14.04LTS)
文章目录目录1.linxu的安装1.1安装Linux虚拟机1.2安装Linux和Windows双系统2.Hadoop的安装2.1 Hadoop安装前配置2.1.1 配置Hadoop用户2.1.2 安装 ssh , 配置ssh免密登录2.1.3 安装java环境2.2 Hadoop的安装3.Hadoop单机版配置4.Hadoop伪分布版配置目录1.linxu的安装1.1安装Linux虚拟机...原创 2019-03-28 23:15:38 · 810 阅读 · 0 评论 -
大数据学习(2)-Hadoop的介绍与安装
原创 2019-03-28 12:59:05 · 329 阅读 · 0 评论 -
大数据学习(1)-大数据概述
文章目录目录大数据产生背景大数据概念大数据影响大数据应用大数据关键技术大数据产业大数据,云计算,物联网关系云计算物联网大数据,物联网,云计算三者之间联系目录大数据产生背景三次信息化浪潮根据IBM前首席执行官郭士纳福观点,每15年IT领域就会迎来一次重大的变革。2.大数据产生的技术支撑数据存储+数据处理+数据传输存储设备容量的不断增大和价格的不断降低CPU处理能力的大...原创 2019-03-27 21:39:41 · 14076 阅读 · 1 评论 -
大数据学习(0)-大数据知识框图
原创 2019-03-27 20:45:10 · 562 阅读 · 0 评论 -
大数据学习(06)-- 云数据库
文章目录目录1.什么是云数据库?1.1 云计算和云数据库的关系1.2 云数据库的概念1.3 云数据库的特性1.4 云数据库应用场景1.5 云数据库和其他数据的关系2.云数据库产品有哪些?2.1 云数据库厂商概述2.2 亚马逊云数据库产品2.3 Google云数据库产品2.4 微软云数据库产品3.云数据库的架构介绍?3.1 UMP系统概述3.2 UMP系统架构3.3 UMP系统功能4.亚马逊 AWS...原创 2019-04-05 16:45:26 · 790 阅读 · 0 评论 -
大数据学习(09)--spark学习
文章目录目录1.spark介绍1.1 spark介绍1.2 scale介绍1.3 spark和Hadoop比较2.spark生态系统3.spark运行框架3.1 基本概念3.2 架构的设计3.3 spark运行基本流程3.4 spark运行原理3.5 RDD运行原理3.5.1 设计背景3.5.2 RDD概念和特性3.5.3 RDD之间的依赖关系3.5.4 stage的划分3.5.5 RDD的运行过...原创 2019-04-10 10:09:35 · 412 阅读 · 0 评论 -
大数据学习(5)-- NoSQL数据库
文章目录目录1.NoSQL的介绍2.NoSQL产生的原因3.NoSQL和关系数据库的区别4.NoSQL的四大类型5.NoSQL的三大基石6.从NoSQL到newSQL数据库7.文档数据库MongoDB8.总结目录1.NoSQL的介绍随着web2.0时代的到来,关系型数据库已经无法满足数据的存储要求。因此,很多人就提出反对SQL的口号,但是后来发现mySQL也有它的优点,无法替代,所以就提出了...原创 2019-04-04 21:04:55 · 791 阅读 · 0 评论 -
大数据学习(4)--分布式数据库HBase
文章目录目录1.HBase概述1.1BigTable1.2 HBase简介1.3 HBase和传统的关系型数据库之间的区别2.HBase访问接口3.HBase数据模型3.1 数据模型概述3.2 数据模型相关概念3.3 数据坐标3.4 概念视图3.5 物理视图3.6 面向列的存储4.HBase的实现原理4.1 HBase功能组件4.2 表和region4.3 region的定位5.HBase运行机制...原创 2019-03-30 17:01:26 · 680 阅读 · 0 评论 -
大数据学习(3)- 分布式文件系统HDFS
文章目录目录1.分布式文件系统1.1 计算机集群概念1.2 分布式文件系统结构2.HDFS简介2.1 HDFS设计的目标2.2HDFS的局限性2.3 块的概念2.4 HDFS主要组件及其功能2.4.1 名称节点2.4.2 第二名称节点2.4.3 数据节点3.HDFS体系结构3.1 HDFS体系结构介绍3.2 HDFS体系结构的局限性4.HDFS存储原理4.1 冗余数据保存4.2 数据存取策略4.3...原创 2019-03-29 17:06:32 · 878 阅读 · 0 评论 -
大数据学习(10)--流计算
文章目录目录1.流计算的概述1.1 什么是流数据?1.2 批量计算和实时计算1.3 流计算的概念1.4 流计算和Hadoop1.5 流计算框架2.流计算的处理流程2.1 流计算处理基本概念2.2 数数据的实时获取2.3 数据的实时计算2.4 实时查询任务3.流计算的应用和开源框架Strom3.1 流计算应用3.1.1 应用1:实时分析3.1.1 应用2:实时交通3.2 开源框架strom3.2...原创 2019-04-20 14:11:59 · 1413 阅读 · 0 评论