网站访问数据ip地址分析
一、 技术:
语言:python
分析技术:spark
技术路线:本地数据源–>spark 分析–>打印结果数据
二、 需求:
求出各个省份访问量。
三、数据解读:
数据路径分别为:
http://10.90.3.2/HUP/spark/ip.txt
http://10.90.3.2/HUP/spark/http.log
1、http.log 为某网站采集的用户访问数据。
访问时间信息|访问的主机ip|访问源
2、ip.txt
为一个参照信息表,里面记载着每个省份对应的ip范围。
起始ip|结束ip|起始ip对应的Long类型数据|结束ip对应的Long类型数据|…
四、思路提示:
目标是计算每个省份访问的访问量
- 提取每条访问日志数据的,用户ip?
- 根据这个ip如何确定ip所属省份?
- 得到每个用户所属省份进行聚合?
五、代码编写思路
1、整体框架代码
# coding=utf-8
from pyspark import SparkConf , SparkContext
import os
# 初始化运行环境
os.environ["JAVA_HOME"]="/opt/jdk8/"
os.environ["PYSPARK_PYTHON"]="/opt/conda3/bin/python"
if __name__=="__main__":
conf = SparkConf(