sparkStremingx项目实战(python定时日志生成器+flume+kafka+ spark+ hbase+ springBoot)

数据清洗一定是对Log4j熟悉操作

用户行为访问日志:1.网站页面的访问量

                             2.网站的粘性

                             3.推荐

用户行为日志分析的意义:眼睛, 神经

通过定时调度工具每一分种产生的一批数据

网站+ Linux croutab 

项目实战:构建定时日志产生器----对接--》flume 构建conf*2----》zk   -kafka

flume与kafka通道测试:kafka-customer对于的topic测试

                                   flume对应流向的kafka  broker list 日志是否更新

 kafka 与sparkStreaming 通道测试: 构建sparkStreaming消息处理类,运行查看控制台的输出

                                                        实质 是flume与sparkStreaming间测试(保证flume与kafka的互通性)

数据清洗操作:构建日期处理类

功能1: 今天到现在为止 实战课程的访问量

 条件参数分析: yyyyMMdd     courseId       count

数据存储:关系型数据库, 非关系型数据库、

关系型算法原理: 20171111 +1 ===>click count +下一批次统计结果

Hbase: 一个API就能搞定, 非常方便

             Hbase表设计     RowKey 设计(核心)

                                        day_courseId

如何使用scala (spark)操作Hbase? 

步骤一:dao层设计和实现

创建CourseClickCount (bean) name,value 

       CourseClickCountDao  数据访问层,构建常见方法

测试habase每个方法的连通性,测试是否可以正常实现数据的操作


步骤二:dao层结合spark业务实现层

实现清洗后的日志到hbase中(通过sparkStreaming处理)


清洗算法设计: 从搜索引擎来的课程的访问量,对于网络地址的处理

https://www.sogou.com/web?query=sparkSql 

 思路总结: 

   如果现在要以“/”来分离,name对于"//",如何来处理

   常见思路: split("//"),再结合成一个新的数组或者集合-->split("/")

   新思路:先替换再split      replaceAll("//","/") -->split("/")

  filter(_._1)代表第2个元素,其中"_"类似于this 

  filter的使用是一种排除思想

  map(x=>(_,1))这里的"_"代表传入进来的"x",   =>()可以理解为转成了一个新的对象,

所以每次一定要清楚传入来的x 是什么,否则无法进行正确的处理




  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算框架,可用于处理大数据集并提供高可靠性,高可用性和高性能。要进行详细的安装部署,需要运行以下步骤: 1. 安装Java:Hadoop基于Java编写,因此需要安装适当的Java版本。 2. 安装Hadoop:以二进制文件的形式下载Hadoop,并将其解压缩到目标位置。编辑Hadoop配置文件,并设置必要的参数,例如本地文件系统和Hadoop所依赖的其他组件。 3. 部署HDFS:使用bin/hdfs script启动HDFS守护进程并格式化NameNode。配置HDFS,并在数据节点上创建数据目录。 4. 部署YARN:使用bin/yarn script启动YARN守护进程,并在ResourceManager节点上运行MR程序的ApplicationMaster服务。重新配置YARN,并设置资源管理器和节点管理器。 5. 安装Spark:以二进制文件的形式下载Spark,并将其解压缩到目标位置。编辑Spark配置文件,并设置必要的参数,例如运行模式,内存设置和调试选项。 6. 安装Hive:以二进制文件的形式下载Hive,并按照说明进行安装。配置Hive,并设置Metastore和HiveServer2。 7. 安装HBase:以二进制文件的形式下载HBase,并按照说明进行安装。配置HBase,并设置区域服务器和HBase主服务器。 8. 安装Oozie:以二进制文件的形式下载Oozie,并按照说明进行安装。编辑Oozie配置文件,并设置必要的参数,例如数据库连接,属性和内存设置。 9. 安装Kafka:以二进制文件的形式下载Kafka,并按照说明进行安装。配置Kafka,并设置必要的参数,例如Zookeeper连接,日志存储位置和日志大小限制。 10. 安装Flume:以二进制文件的形式下载Flume,并按照说明进行安装。配置Flume,并设置必要的参数,例如Flume代理,事件类型和目标。 11. 安装Flink:以二进制文件的形式下载Flink,并按照说明进行安装。配置Flink,并设置必要的参数,例如集群模式,任务管理器,计算管道和作业提交方式。 12. 安装ES:以二进制文件的形式下载Elasticsearch,并按照说明进行安装。配置Elasticsearch,并设置必要的参数,例如节点类型,索引设置和查询配置。 13. 安装Redash:以二进制文件的形式下载Redash,并按照说明进行安装。配置Redash并设置必要的参数,例如数据库连接,权限和查询模式。 以上提到的大数据技术是开源的,所以可以在官网上找到相关二进制文件和详细的安装部署指南。也可以使用一些自动化的部署工具,如Puppet和Ansible来简化整个过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值