大数据
文章平均质量分 76
smithliang1996
当你还不能写出自己满意的程序时,你就不要去睡觉。
展开
-
hadoop集群安装教程
Hadoop介绍: Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。安装三台虚拟设备 在里面我建议大家选择性能稳定的合适的linux版本进行安装,一般要进行初级学习的话,暂时三台虚拟机就够学习使用了。网络ip设置 首先,选择虚拟机为net模式,看准当前网关和虚拟机能分配的网段原创 2017-09-13 12:04:55 · 1145 阅读 · 0 评论 -
Hbase入门
Hbase是一个开源的非关系型数据库(nosql),他参考了谷歌的bigtable建模,实现语言java 是apache软件基金会的hadoop项目的一部分,运行在hdfs文件系统之上,因此可以容错的存储海量的稀疏数据 和关系型数据库不同,如mysql。如果在插入值时候,如果没有向哪一行插入数据,mysql会自动插入null。 稀疏数据(在数据库中,稀疏数据是指在二维表中含有大量空值的原创 2017-11-06 21:40:12 · 314 阅读 · 0 评论 -
初始hadoop的mapreduce框架
mapreduce是一个集成框架,这个继承框架是处理海量数据的并且是一个分布式的,就是有多个及其共同组成了同一个集群来提供服务。mapreduce是一个用于处理海量数据的分布式计算框架。 他解决了 数据分布式存储 作业调度 容错 机器间通信等复杂问题首先是数据分布式存储,其实hadoop本身是不存储数据的,那么数据其实是存储到hdfs上,hadoop生态的底层是hdfs然后再往上走就是一个原创 2017-10-31 20:32:14 · 401 阅读 · 0 评论 -
map和reduce任务各参数参考
mapreduce的物理配置 合适的slot(hadoop的资源单位(槽位)) -单机map、reduce个数 -内存 -cpu -多机集群分离(耦合度低) 磁盘情况 -合适单机多磁盘 -mapred.local.dir(在hadoop的核心配置中core-site.xml)和dfs.data.dir(在hadoop的hdfs-site.xml)确定map任务数时依次优先原创 2017-10-31 21:13:17 · 644 阅读 · 0 评论 -
初探hadoop框架
首先做好前期的准备: 安装hadoop集群,我是采用的伪分布式(练习使用),四台虚拟机, 一台为主(master),三台为从(slave)。因为是练习,所以就在主节点master上练习作业,没有在客户端访问集群,语言选择的是python任务:将一个txt文件中的单词进行计数,然后输出到集群上。四个文件: 一个源文件xxx.txt 一个map文件:map.py 一个reduce稳健:red.原创 2017-10-31 22:16:52 · 313 阅读 · 0 评论 -
利用mapreduce计算框架向hbase插入数据(python脚本)
mapreduce计算框架是hadoop项目中的一个分布式计算框架,他的强大的吞吐能力和批量的数据输出使之成为离线数据挖掘的首选框架。 hbase是一个nosql数据库,是参考了google内部的bigtable模型设计出来的一个nosql数据库,他减少了数据的冗余和使查询的效率提高,是实现数据挖掘的相关数据库的nosql数据库的首选语言,且底层数据存储在hadoop中的hdfs中。使用版本:ha原创 2017-11-12 10:13:14 · 1771 阅读 · 0 评论