大数据项目实战二之电信大数据项目

最新推荐文章于 2024-08-05 08:14:24 发布

说文科技

最新推荐文章于 2024-08-05 08:14:24 发布

阅读量2.3w

点赞数 42

分类专栏： # Hadoop 文章标签： hadoop mapreduce kafka

喜欢文章？请私信联系作者。

本文链接：https://blog.csdn.net/liu16659/article/details/81133090

版权

Hadoop 专栏收录该内容

52 篇文章 2 订阅

订阅专栏

大数据项目实战二之电信大数据项目

1.项目简介

大数据时代的到来，对数据的处理与分析有了很高的要求。本项目以通话数据去展示如何处理并分析大数据，并最终通过图表可视化展示。
本项目主要分成如下几个部分：

生产日志【模拟通话】
=> kafka 采集
【=> kafka API 的控制台展示】 =>HBASE（创建命名空间，创建表，rowKey设计，region预分区）
=>MapperReduce 分析 HBase 数据
=>将分析的数据写入到Mysql中
=> Web Server【使用JSP+Servlet】

2. 项目实现

这个项目（Project）由多个模块（Modules）构成的，这些模块之间可以独立运行。所有模块如下：
在这里插入图片描述

dataProducer 实现数据的生产
ct_consumer 实现数据的消费【写入到HBase】
ct_analysis 实现数据的分析
webDisplay 实现数据的可视化

2.1 `MapReduce` 中的 `Mapper` 类

映射输入的键值对到一组中间状态的键值对。=> 将输入状态的键值对变换成中间状态的键值对。
Maps任务各不相同，它们都是将输入的记录转换成中间状态记录。已经转换成功的中间状态记录不需要和输入记录类型相同。一个输入的键值对可能映射到0到多个输出的键值对。

采取使用多个MapReduce分析多个业务指标的方式来进行任务。
业务指标：

用户通话时间统计
用户每月通话记录统计，通话时间统计
用户之间的亲密关系统计（通话次数与通话时间体现用户亲密关系）

2.2 自定义输出格式类

本项目中自定义的三个输出类分别是：

Intimacy
这个 Intimacy 是用于做亲密度展示的
MonthStat
这个MonthStat是用于做每个月每个用户的通话数据展示
Statistics
这个Statistics是用于做每个用户每年的通话数据展示【其实我觉得这个实体类稍显多余，暂且就放在这里】

2.4 `mapreduce`实现类

分成三个部分，生成这些统计数据，如下

teleDuration
用于计算年通话时长
teleIntimacy
用于计算用户亲密度
teleMonthDura
用于计算用户月通话时长

它们都在analyze.fromHBToMys包下。

2.5 结果存储

将分析的结果存放在mysql中。
使用到的表主要有，（这里简单展示如下）：

//0. 电信数据分析数据库
create database mydatabase character set utf8;

//1. 用户基本信息表
create table user(
 teleNumber varchar(12) not null primary key
 ,name varchar(20) not null
);


//2. 通话记录分析表
drop table if exists statistics;
CREATE TABLE statistics (
  telenumber varchar(12) NOT NULL,
  callDuration int(11) NOT NULL DEFAULT '0',
  PRIMARY KEY (telenumber)
) ENGINE=InnoDB DEFAULT CHARSET=utf8

//3. 亲密度分析结果表
-- 亲密用户信息表，用于展现call1 的用户在year 年时的亲密用户
drop table if exists intimacy;
create table intimacy(
call1 varchar(12) not null primary key,
call2 varchar(12) not null ,
year varchar(6) not null,
callDuration int not null DEFAULT  0
);
create unique index uidx_call1_call2_year on intimacy(call1,call2,year);

//4. 用户月通话数据统计表
drop table if exists monthStat;
create table monthStat(
teleNumber varchar(12) not null ,
yearMonth varchar(6) not null ,
callDuration int not null DEFAULT  0,
primary key(teleNumber,yearMonth)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;

3. 项目代码

项目具体代码详见我的 github。【因为涉及到关键字，项目暂时关闭了，后期开放再更新出来】

4. 运行结果

因为需要展示的内容有很多，这里只截图展示部分内容

如下是将通话记录写入到 Hbase 的表之后，生成的表以及内容；
Hbase 管理界面上的calllog表
截取其中一个 region 进行查看，如下：
需要注意的是，这里的分区键。分区键的内容在我博客里有介绍，这里不再赘述。
mysql 数据库如下
前端界面展示
程序主页如下：

进入到项目主页，如下：

填好参数，即可运行：

得到的执行结果如下：

5. 项目问题

在构建这个项目时，遇到了很多问题。主要有如下几个方面：

5.1 前端方案

因为是一名大数据开发工程师，属于后端领域，对于前端技术是的一点儿都不懂。虽然之前也曾用ASP搭建过网站，但是属于Windows的这个技术实在不适合java。于是自己硬是学习了一遍 JSP+Servlet，虽然这些东西也不是十分友好，但是对于解决页面展示问题还是绰绰有余的。在使用 JSP+Servlet 的过程中，主要遇到的问题有：

前后端如何传递值？
说明白点儿，就是如何将java程序算出来的值放到jsp页面，并且在浏览器中展示？这个过程我用了前端程序常用的 请求获取；也用到了Session【这个主要是应用在多个页面之间参数的传递】；也用到了 Ajax去异步的获取值。这一部分内容，详见我的博客列表：
Servlet程序实战一之前端向后台传值
JSP 向后台传递参数的方法
Jsp 点击按钮不跳转
jsp输出换行
表单跨行，跨列实现

5.2 前端页面不会动态刷新

JSP 页面自身没有刷新操作。但是在Ajax中却是可以的。异步刷新指的就是：我在加载了一个index.jsp页面时，即使第一次加载的时候数据还没有准备好，却依然可以通过ajax 将数据加载出来。但是如若通过JSP的Session或者Bean方式，就不行。这里记录如下：
下图是在第一次加载 telephone = 14218140347 这个用户产生的页面。
在这里插入图片描述上面这个页面的月通话详情是通过ajax 获取的；而userName,province/city等字段却是通过Bean的方式获取；而 startMonth，endMonth，userName则是通过页面值传递获取的。但是我们可以看到通过Bean的方式没有将值获取到。
接着，再次发送一次请求【刷新页面】，如下：
在这里插入图片描述

在这里插入图片描述
接着就看到这个userName字段就获取到了值，为何手动刷新一遍就可以获取到值呢？原因就如上所述：ajax 是异步刷新数据，而这里的userName 则使用Session的方式。从而导致第一遍加载的时候无法出现userName 字段，但是再次刷新的时候，就出现了这个字段。那么这个问题的解决办法就是：在从callStatistic.jsp 时就加载这个userName，然后让其写入到session中，这样在加载 statisticOne.jsp 时就可以显示出了userName 字段。