搜索日志实时展示项目
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CuPLbWYe-1639467422243)(C:\Users\yfy\AppData\Roaming\Typora\typora-user-images\image-20211213083809254.png)]
项目数据写入过程:
使用create_log.sh 动态生成数据 -> 导入到 hadoop01上的flume -> hadoop03上的flume -> kafka ->
spark(汇聚数据) -> mysql ;
项目数据读取(展示)过程:
mysql -> 服务端(一个maven项目) -> 前端(echarts可视化软件进行展示)
一、数据写入环境搭建
数据源准备
1.数据源地址 :http://www.sogou.com/labs/resource/q.php
2.数据处理
模拟数据实时动态生成效果,为后续数据处理及展示提供源源不断的数据
首先在hadoop01家目录下创建一个search目录,将老师发的数据SogouQ.reduced拷贝到目录中,以下所有操作都在search目录中进行
2.1处理乱码问题
iconv -f gb18030 -t utf-8 SogouQ.reduced > sogou.csv
2.2创建create_log.sh文件
if [ $# -ne 3 ] ; then
echo "usage $0 src_file dst_file frequence"
exit
fi
while read line ;do echo $line | tr ' ' ',' >> $2