大数据项目实战
文章平均质量分 91
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
-
可再生能源工厂系统 (REPS) - 项目源码
传感器收集、整理并发送有关生产系统健康状况的数据,如每小时的能源产量,而摄像头则记录并发送视频到服务器控制室,展示工厂内发生的事情,如人员的流动和运输方式(用于监控活动)或卡车装载物资的交换。数据:为了收集太阳能、风能和水能的数据,我们建议使用如 Fingrid.fi 这样的资源,它提供了关于能源生产和消费的全面数据。这包括检测各种类型的错误,并可能向用户提供清晰的指导,说明如何纠正它们。发电厂必须可靠、可持续且成本效益高。注意:确保遵循 Scala 风格指南,并使用适当的命名约定为变量、函数和类命名。原创 2024-07-20 17:38:38 · 924 阅读 · 0 评论 -
使用Eclipse完成WordCount案例(Windows本地运行)
本教程非常简单,主要是将MapReduce程序给跑起来,至于代码是什么意思,为什么要这么写,其实我们这里并不关心。邵奈一原创不易,如转载请标明出处,教育是一生的事业。原创 2022-07-26 23:57:07 · 1790 阅读 · 0 评论 -
基于Hadoop分布式存储的网盘系统实现(简易粗糙版)
基于Hadoop分布式存储网盘的实现原创 2022-05-20 15:41:08 · 5022 阅读 · 15 评论 -
MapReduce基础编程之按日期统计及按日期排序
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,爱生活、爱分享。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | CSDN | 掘金 | 51CTO | 简书 | 微博 |教程目录0x00 教程内容0x01 项目准备1. 新建Maven项目2. 需求.原创 2022-05-17 21:59:37 · 2025 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(六)=> 参数配置化
大家好,我是邵奈一,一个不务正业的程序猿、正儿八经的斜杠青年。1、世人称我为:被代码耽误的诗人、没天赋的书法家、五音不全的歌手、专业跑龙套演员、不合格的运动员…2、这几年,我整理了很多IT技术相关的教程给大家,主要是大数据教程,帮助了很多小伙伴入坑大数据行业。3、如果您觉得文章有用,请收藏,转发,评论,并关注我,谢谢!博客导航跳转(请收藏):邵奈一的技术博客导航| 公众号 | 微信 | 微博 | CSDN | 简书 |教程目录0x00 教程内容0x01 运行模式配置化0x02 路径配置化0.原创 2020-10-31 09:51:36 · 583 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(五)=> 切割会话代码重构
文章目录0x00 文章内容0x01 实现切割会话代码的重构1. 抽离切割会话代码成方法2. 抽离切割会话方法成接口3. 校验结果0x021.0xFF 总结0x00 文章内容当前情况回顾,上一篇文章中我们已经实现了将输出代码重构成了一个接口组件,以达到可以选择输出TextFile格式文件或者Parquet格式文件。现在,我们回去看一下OneUserTrackerLogsProcesso...原创 2020-03-18 15:34:19 · 756 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(四)=> 代码重构
文章目录0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码2. 重构输出路径3. 重构输出文件类型0x021.0xFF 总结0x00 文章内容0x01 实现输出代码的重构1. 抽离输出代码a. 因为SessionCutETL里的main方法写了比较多的代码,此时我们可以将第6步骤的输出代码进行抽离,全选,选中Refactor=>Extract=>Metho...原创 2019-12-31 00:09:15 · 499 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(三)
文章目录0x00 文章内容0x01 配置Kryo序列化机制1. 情形解析0x02 调整控制台日志级别1. 编写log4j.properties文件0xFF 总结0x00 文章内容配置Kryo序列化机制调整控制台日志级别说明:本篇文章主要是对用户行为分析项目的小小调优及完善,后期还会进行代码的重构以及Debug过程。0x01 配置Kryo序列化机制1. 情形解析a. 回顾第一篇文章...原创 2019-12-17 23:14:03 · 565 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(二)
教程目录0x00 教程内容0x01 项目分析1. 项目回顾2. 项目目标0x02 编程实现1. 按cookie进行分组2. 按user进行分组3. 将日志按时间进行排序4. 切割会话5. 生成会话6. 当前结果查看7. 实现domain_label字段8. 实现cookie_label字段9. 保存统计结果10. 解决报错0x03 结果展示0xFF 总结原创 2019-12-16 09:33:00 · 1017 阅读 · 0 评论 -
网站用户行为分析项目之会话切割(一)
项目背景我们在浏览网站的时候,我们的很多信息都会被网站的后台采集到,采集的方式有很多种,至于怎么采集,以后有机会再写教程详细说,这篇教程主要是讲解采集到了数据后,对数据进行一个切割的过程。关于信息的收集,可参考文章,自行了解一下:网站分析数据(即用户行为数据)的三种收集方式详解 如果有时间,再整理相应的实操教程出来。目前我们有三份数据数据一、网站用户点击日志(存储在HDFS),格式如下:...原创 2019-09-12 17:17:28 · 2433 阅读 · 1 评论 -
Flume+Kafka+Storm实战:二、Flume与Kafka整合
文章目录0x00 文章内容0x01 Flume准备1. 编写Flume配置文件0x02 Kafka准备1. 创建topic(如已操作过可跳过)0x03 校验结果1. 启动Flume2. 启动Kafka消费者3. 测试结果0xFF 总结原创 2019-09-06 10:27:15 · 913 阅读 · 0 评论 -
Flume+Kafka+Storm实战:一、Kakfa与Storm整合
文章目录0x00 文章内容0x01 Kafka准备1. 启动Kafka2. 创建Topic3. 启动消费者与消费者0x02 Storm准备1. 构建Maven项目2. 编写代码0x03 校验结果1. 打包Storm代码2. 执行ZK与Storm3. 执行Storm作业4. 校验过程0xFF 总结原创 2019-07-16 00:07:17 · 1312 阅读 · 0 评论 -
Spark项目实战:飞机延误预测项目
| 公众号 | 微信 | 微博 | CSDN | 简书 |PS:后期还会补充2、继续优化数据,提高预测效果3、代码优化,代码里有小部分测试代码,应该优化~a. wget参考命令:PS:若上述链接已失效,请联系博主私下获取。或者关注公众号,回复:飞机延误预测。b. 请自行修改名称,如果不是wget方式下载:a. 上传到HDFS的路径下a. 上传到HDFS的路径下说明:可以自己解压一下数据,查看一下前面几条数据(数据信息有待完善及校验!)。2. 上传原创 2019-05-17 09:23:38 · 5967 阅读 · 7 评论