大数据
AlgoRain
欢迎访问我的个人博客www.rain1024.com
展开
-
基于Hadoop搭建HDFS伪分布式环境的安装步骤
基于Hadoop搭建HDFS伪分布式环境的安装步骤本次实验中,老师使用的是hadoop用户,我是直接使用root用户,所以没有sudo,环境变量也是/etc/profile,其他的基本一样。JDK安装查看已经上传的jdk文件,并安装安装命令: yum localinstall -y jdk-8u171-linux-x64.rpm 添加到系统环境变量: ~/.bash_pr...原创 2018-06-22 08:48:19 · 739 阅读 · 1 评论 -
使用MapReduce统计天气数据中的最高气温
使用MapReduce统计天气数据中的最高气温例子是从Hadoop权威指南上改写的,需要先将代码生成jar包,然后将测试样例和jar包上传到HDFS中,使用命令运行,最终会得出每年的最高气温统计结果,运行命令不写出来了。代码也很简单,就是分别写出map和reduce的操作,map中对数据进行一个分割,提取,将结果传给reduce进行统计。package com.rain.mapre...原创 2018-08-03 19:07:23 · 3882 阅读 · 2 评论 -
使用Java调用HDFS的API进行文件基本操作
使用Java调用HDFS的API进行文件基本操作本样例主要是代码,其中包括了Java进行上传,下载,删除,创建文件夹,遍历文件夹等操作,代码环境基于MacOS,IDEA,使用Maven来配置依赖包,后面我会放出代码,和pom.xml。Hadoop是2.6 CDH版本。代码中的hmaster是我配置的虚拟机IP地址,需要修改为你的虚拟机IP地址。HDFSUtil.javapack...原创 2018-08-12 17:33:57 · 3368 阅读 · 0 评论 -
使用MapReduce对日志数据进行简单的清理和总结
使用MapReduce对日志数据进行简单的清理和总结首先使用MapReduce对日志进行分割,将time,ip,url提取出来,在用reduce进行一个整合,根据ip地址的出现次数,打印到hdfs中。在整合中我使用了bean结构来存储数据,bean继承了WritableComparable接口。使用时先将BaiduLog和LogBean两个类导入项目,并配置相应的Maven依赖,然后导出项目的...原创 2018-09-19 09:42:45 · 3509 阅读 · 0 评论 -
大规模校园网日志的用户行为分析—(理论分析)
大规模校园网日志的用户行为分析—(理论分析)思路想法:校园网中存在大量的上网日志,用户的上网日志信息是非常有用的在它里面记录了用户访问网站的行为轨迹、 用户终端信息、位置信息、浏览网页时长等重要信息,可以说是一座巨大的数据金矿。但是校园网日志可能并没有利用起来,如果能对数据进行清洗,开发,分析,挖掘,从中提取出有价值的数据,有助于校园网的优化,管理。技术点:日志信息的实时流提取,会用到kafk...原创 2019-07-29 14:43:31 · 1444 阅读 · 8 评论