Spark Streaming项目实战

最新推荐文章于 2024-08-16 09:21:03 发布

huxin9611

最新推荐文章于 2024-08-16 09:21:03 发布

阅读量1.8k

点赞数 1

分类专栏：学习笔记文章标签： spark

本文链接：https://blog.csdn.net/huxin9611/article/details/89894060

版权

本文详细介绍了如何使用Spark Streaming处理互联网访问日志，包括Python日志产生器的开发，通过Flume和Kafka传递日志，以及利用HBase存储和统计访问量。在实践中，实现了实时统计实战课程的访问量，并讨论了HBase表设计和Rowkey策略。

摘要由CSDN通过智能技术生成

需求说明

今天到现在为止实战课程的访问量
从今天到现在为止从搜索引擎引流过来的实战课程访问量

互联网访问日志概述

为什么要记录用户访问日志
1）网站页面的访问量
2）网站的黏性
3）推荐

用户行为日志内容

用户行为日志分析的意义
网站的眼睛
网站的神经
网站的大脑

Python日志产生器开发之产生访问url和ip信息

使用Python脚本实时产生数据
Python实时日志产生器开发

新建 generate_log.py

#coding=UTF-8
import random


url_paths = [
	"class/112.html",
	"class/128.html",
	"class/145.html",
	"class/146.html",
	"class/131.html",
	"class/130.html",
	"learn/821",
	"course/list"

]


ip_slices = [132,156,124,10,29,167,143,187,30,46,55,63,72,87,98,168]


def sample_url():
	return random.sample(url_paths,1)[0]

def generate_log(count = 10):
	while count>=1:
		query_log = "${url}".format(url=sample_url())
		print query_log
		count = count - 1
		

if  __name__ == '__main__': 
	generate_log()

在这里插入图片描述

功能开发及本地运行

[hadoop@hadoop000 logs]$ tail -200f access.log

query_log = “{ip}\t{local_time}\t{url}\t{status_code}\t{referer}”.format(url=sample_url(),ip=sample_ip(),referer=sample_referer(),status_code=sample_status_code(),local_time=time_str)

在这里插入图片描述