大数据
文章平均质量分 64
阳哥赚钱很牛
努力努力努力
展开
-
数据可视化——大数据报表
1、数据可视化项目所需要的技术:servlet / mysql / html / css / js / jquery / echarts2、需要引入如下环境依赖:后端:mysql-connector-javaxxx.jarfastjson-xxx.jarlombok.jar——构建JavaBean的神器前端:jquery-xxx.jsecharts-xxx.jsmaven: <!-- mysql的驱动jar--> ...原创 2021-09-07 10:16:11 · 1377 阅读 · 0 评论 -
数据导出/迁移(Sqoop技术)
数据导出/迁移的概念在做数据导出之前,我们看一下已经完成的操作:数据分析阶段将指标统计完成,也将统计完成的指标放到Hive数据表中,并且指标数据存储到HDFS分布式文件存储系统。指标统计完成之后,我们最终是想将我们的指标数据做成可视化大屏进行展示,Hive中的数据无法、很难直接连接到JavaWeb或者EE技术直接进行数据展示。 因此我们需要将Hive中统计出来的数据指标表迁移到我们的MySQL数据库中,由MySQL数据库连接web技术进行可视化展示。...原创 2021-09-03 22:04:41 · 2144 阅读 · 4 评论 -
数据清洗/数据预处理(MR程序)
数据质量的好与坏直接关系到我们最终的数据分析结果的正确与否。如果想要保证数据的高质量,我们需要对数据进行清洗,清洗有两个作用:1、将数据质量不好的数据清洗掉,过滤掉不合法的数据2、将原始数据中的某些信息转换成我们容易操作的字段或者模型信息,将数据中的某些数据的格式进行转换,以便我们后期处理。数据预处理/数据清洗(本案例是分析用户使用网站产生的点击流)日志信息:120.191.181.178 - - 2018-02-18 20:24:39 "POST https:...原创 2021-09-02 12:10:05 · 2345 阅读 · 3 评论 -
离线大数据项目流程(点击流日志行为分析)
原创 2021-09-01 22:04:58 · 215 阅读 · 0 评论 -
Flume框架的高级使用
今天给大家介绍一下Flume的多source channel sink和多Flume操作案例。如果我们想要实现将多个数据源的数据采集到同一个地方,两种实现思路:1、用一个Flume进程,但是在一个Flume进程当中有两个source、两个channel、两个sink2、用三个Flume进程,其中前两个Flume进程分别采集端口和文件的数据,将数据发送给第三个flume,由第三个flume同一将数据采集到HDFS一、多source、channel、sink案例我们知道f...原创 2021-08-30 17:56:01 · 278 阅读 · 2 评论 -
Flume的使用
Flume软件的使用是需要我们通过配置文件完成的,编写Flume采集数据的脚本文件,脚本文件我们一般叫xxx.conf这样的文件,这个脚本文件中配置的是flume采集框架中的source连接的数据源、sink连接的目的地,以及source和channel\sink如何连接,配置文件编写完成,然后使用Flume相关命令启动即可实现数据采集。其具体使用可参考官网http://flume.apache.org/documentation.html,选择Flume Develo...原创 2021-08-28 13:54:15 · 1458 阅读 · 4 评论 -
开发一个大数据项目的架构与流程
如果我们想做一个数据分析项目,我们就应该清楚数据的处理流程。我们大致可以分为:数据采集——数据存储——数据清洗——数据分析——数据可视化和数据挖掘、二次分析在以上流程处理完成之后,会进入调度阶段:将数据采集、清洗、分析、导出、可视化制作成一个 调度任务,一键就可运行所有阶段。所用技术:azkaban技术...原创 2021-08-27 21:38:19 · 764 阅读 · 1 评论