![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Flume 对接 Spark-Streaming
用 Flume 收集实时点击日志,以 Http 请求的形式 Post Json 数据,传入 Flume,通过 SparkStreaming 对数据进行处理,此处 SparkStreaming 于 Flume 对接的方式是 Push,所以启动顺序是先启动 SparkStreaming 再 启动 Flume添加依赖到 Maven<?xml version="1.0" encoding="UT...原创 2020-02-29 22:44:47 · 388 阅读 · 1 评论 -
pyspark mllib ALS 实践
数据集 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56基于 ALS 的 LFM 算法进行候选集召回# 从用户行为日志数据集behavior_log 7亿 条数据中选取 100万 条import pandas as pdimport warningswarnings.filterwarnings("ignore")pat...原创 2020-02-04 14:44:32 · 612 阅读 · 0 评论 -
Spark Preprocessing&FE practice
最近因为要做推荐系统 ,为了熟悉 pyspark 的操作,并且熟悉一下处理日志数据 , 故尝试处理此数据集数据集介绍Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。 下载地址 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56 ,数据名称说明属性...原创 2020-02-04 14:38:28 · 338 阅读 · 0 评论 -
Spark-Streaming 对接 Kafka
在官网下载,对应 spark 和 scala 版本的 jar 包https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8-assembly我在 spark 的目录下 创建了一个 external_jars 的目录,并把这个 jar 包放到这个目录下启动 spark启动 zookeeper启...原创 2020-02-01 14:30:12 · 513 阅读 · 1 评论 -
Spark-SQL note
Spark-SQLspark SQL是 spark 中用于处理结构化数据的一个模块用 python 操作 RDD 慢:要转换可执行代码,在 JVM 中运行,涉及不同语言引擎间的切换,进行进程间的通信很耗费时间DataFrame以RDD为基础的分布式数据集,类似于关系型数据库的二维表DataFrame引入 schema 和 off-heap1.解决了RDD的缺点序列化和反序列化开销...原创 2020-01-30 23:12:00 · 141 阅读 · 0 评论 -
Spark-Core 实践,用户 ip 定位
根据 ip 库中的 ip 范围判断 给定 ip 所在地,ip库中的 ip 范围是有序的ip库用户 ip 数据代码from pyspark.sql import SparkSessionimport sys# 将 ipv4 字符串转换为整数def ip_transform(ip): ips = ip.split(".") ip_num = 0 for i ...原创 2020-01-30 15:54:39 · 228 阅读 · 0 评论 -
Spark-Core note
RDD的三类算子Transformation通过已有的RDD生成新的RDD惰性计算:Transformation 只会记录RDD的转化关系,不会触发计算(类似于py 里面的惰性序列,如 zip)举例:map,filter,groupBy,reduceBy优点:可以中间插入优化过程Action通过RDD计算得到一个或者一组值Action是立即执行的举例:cout,reduce...原创 2020-01-30 11:33:14 · 191 阅读 · 0 评论