Spark-Core 实践,用户 ip 定位

根据 ip 库中的 ip 范围判断 给定 ip 所在地,ip库中的 ip 范围是有序的

ip库
在这里插入图片描述
用户 ip 数据
在这里插入图片描述

代码

from pyspark.sql import SparkSession
import sys

# 将 ipv4 字符串转换为整数
def ip_transform(ip):
    ips = ip.split(".")
    ip_num = 0
    for i in ips:
        ip_num = int(i) | ip_num << 8
    return ip_num

def binary_search(ip, square):
    start = 0
    end = len(square) - 1

    while(start != end):
        mid = (start + end) // 2
        temp = square[mid]
        if temp[0] <= ip <= temp[1]:
            return temp[2:] # 地区信息
        elif ip < temp[0]:
            end = mid
        elif ip > temp[1]:
            start = mid

def main():
    spark = SparkSession.builder.appName("ip_identify").getOrCreate()
    sc = spark.sparkContext

    ip_lib = sc.textFile("/usr/local/big_data/learn_pyspark/ip.lib.txt")
    ip_lib = ip_lib.flatMap(lambda x:x.split('\n'))
    user_ips = sc.textFile("/usr/local/big_data/learn_pyspark/user_ips.txt")
    user_ips = user_ips.flatMap(lambda x:x.split('\n'))
    
    ip_lib = ip_lib.map(lambda x:x.split()).map(lambda item:\
            (ip_transform(item[0]), ip_transform(item[1]), *item[2:]))

    # 创建广播变量
    ip_lib_broadcast = sc.broadcast(ip_lib.collect())


    def get_position(ip):
        _ip = ip_transform(ip)
        broadcast_value = ip_lib_broadcast.value
        temp = binary_search(_ip, broadcast_value)                
        return (ip, *temp)
    
    user_ips_rdd = user_ips.map(lambda x:get_position(x))
    for i in user_ips_rdd.collect():
        print(i)
    
    sc.stop()

if __name__ == '__main__':
    main()
    

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值