大数据
Stigx
这个作者很懒,什么都没留下…
展开
-
hadoop 完全分布式 datanode无法启动
先执行stop-all.sh暂停所有服务将所有Salve节点上的tmp(即 hdfs-site.xml 中指定的 dfs.data.dir 文件夹,DataNode存放数据块的位置)、 logs 文件夹删除 , 然后重新建立tmp , logs 文件夹重新格式化: hadoop namenode -format启动:start-all.sh...原创 2020-05-27 17:16:44 · 297 阅读 · 0 评论 -
HADOOP 2.5.2 集群HA 高可用 安装步骤
前期准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系(etc/hosts) 4.关闭防火墙(chkconfig iptables off)chkconfig --list iptables //查看chkconfig iptables off //关闭防火墙service iptales status //查看5.ssh免登陆6.安装JDK,配置环境变量等(profile文件)集群规划:主机名 IP 安装的软件 运行的进程scau原创 2020-05-21 23:38:02 · 167 阅读 · 0 评论 -
大数据 linux下MapReduce——倒排索引
实验内容实现倒排索引效果:统计每个单词在不同文件中的出 现次数;倒排索引的原理参考实验说明;输入:自己编辑几个文件,例如 a.txt,b.txt,c.txt。 每个文件的内容为若干行单词,单词之间以空格分开, 并将这些文件上传到 hdfs 的/in 目录下;例如:a.txt 包含内容: hadoop google scau map hadoop reduce hive hello hbase...原创 2020-05-05 20:41:19 · 813 阅读 · 0 评论 -
大数据Hadoop简介
目录大数据定义大数据核心特征Hadoop定义Hadoop2.X 主要部分组成Hadoop生态系统大数据技术线路大数据定义大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据核心特征4V+XV数据量大(Volume)类型繁多(Variety)价值密度低(Va...原创 2020-04-08 21:47:17 · 185 阅读 · 0 评论