Spark Streaming项目实战

本文详细介绍了如何使用Spark Streaming处理互联网访问日志,包括Python日志产生器的开发,通过Flume和Kafka传递日志,以及利用HBase存储和统计访问量。在实践中,实现了实时统计实战课程的访问量,并讨论了HBase表设计和Rowkey策略。
摘要由CSDN通过智能技术生成

需求说明

今天到现在为止实战课程的访问量
从今天到现在为止从搜索引擎引流过来的实战课程访问量

互联网访问日志概述

为什么要记录用户访问日志
1)网站页面的访问量
2)网站的黏性
3)推荐

用户行为日志内容

用户行为日志分析的意义
网站的眼睛
网站的神经
网站的大脑

Python日志产生器开发之产生访问url和ip信息

使用Python脚本实时产生数据
Python实时日志产生器开发

新建 generate_log.py

#coding=UTF-8
import random


url_paths = [
	"class/112.html",
	"class/128.html",
	"class/145.html",
	"class/146.html",
	"class/131.html",
	"class/130.html",
	"learn/821",
	"course/list"

]


ip_slices = [132,156,124,10,29,167,143,187,30,46,55,63,72,87,98,168]


def sample_url():
	return random.sample(url_paths,1)[0]

def generate_log(count = 10):
	while count>=1:
		query_log = "${url}".format(url=sample_url())
		print query_log
		count = count - 1
		

if  __name__ == '__main__': 
	generate_log()

在这里插入图片描述

功能开发及本地运行

[hadoop@hadoop000 logs]$ tail -200f access.log

query_log = “{ip}\t{local_time}\t{url}\t{status_code}\t{referer}”.format(url=sample_url(),ip=sample_ip(),referer=sample_referer(),status_code=sample_status_code(),local_time=time_str)

在这里插入图片描述

linux crontab
网站: http://

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值