电信客服分析平台_学习总结
电信项目:
一、idea 项目构建
1、安装 jdk 并配置环境变量。
2、安装 maven,解压离线仓库,并设置 settings。
** conf 目录下的 setttings.xml 文件复制到离线仓库的 m2 目录下,并修改 mirror 标签以及离线仓库路径。
** 设置 idea 工具的 maven 选项,涉及到 4 个地方:Work offline(脱网工作/离线模式),以及 3 个 maven 设置。注意:Override 选项。
3、新建 ct 主项目目录(相当于 eclipse 的 workset)。
** 一个项目对应一个文件夹,举例:
workspace:
ct:
ct_producer:
该项目的各种包
ct_analysis:
该项目的各种包
4、新建 ct_producer 模块,用于数据生产代码的编写或构建。
** 构建该项目选择 maven,ct 项目下所有的模块(module)都是 maven 工程。(maven 要是用 3.3.9 的,maven3.5,有部分兼容性问题)
5、设置常用选项
** View -> Toolbar 和 Tool Buttons 勾选上
** 取消 idea 自动打开之前项目的功能(搜索 Reopen,关闭相关标签即可)
** 设置字体大小(Editor -> Font -> Size)进行设置
** 设置字符编码:搜索:File Encodings,3 个位置全部改为 UTF-8
** 自动导包以及自动提示设置(搜索 Auto,设置自动导包为 Ask,代码自动提示为 First letter)
尖叫提示:
** idea -> File -> Setttings 设置的是当前项目的配置(只针对当前项目生效)
** idea -> File -> Others Setttings -> Default settings 设置的是全局默认配置(也就是说,以后新建项目都是按照这个默认配置)
二、数据生产
1、新建Producer.java
** 初始化联系人集合用于随机数据使用
** 随机两个电话号码
** 随机通话建立的时间,返回 String,格式:yyyy-MM-dd HH:mm:ss
** 随机通话持续时间
** 将产生的数据写入到本地磁盘中(日志文件)
三、数据消费(数据存储)
flume:Cloudera 公司研发
适合下游数据消费者不多的情况;
适合数据安全性要求不高的操作;
适合与 Hadoop 生态圈对接的操作。
kafka:Linkedin 公司研发
适合数据下游消费众多的情况;
适合数据安全性要求较高的操作(支持 Replication)。
1、安装运行 zookeeper
2、安装配置 kafka,此时我使用的版本是 2.11-0.11.0.2
** 修改 server.propert