Spark
Last_xuan1
这个作者很懒,什么都没留下…
展开
-
Flume 对接 Spark-Streaming
用 Flume 收集实时点击日志,以 Http 请求的形式 Post Json 数据,传入 Flume,通过 SparkStreaming 对数据进行处理,此处 SparkStreaming 于 Flume 对接的方式是 Push,所以启动顺序是先启动 SparkStreaming 再 启动 Flume 添加依赖到 Maven <?xml version="1.0" encoding="UT...原创 2020-02-29 22:44:47 · 392 阅读 · 1 评论 -
pyspark mllib ALS 实践
数据集 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56 基于 ALS 的 LFM 算法进行候选集召回 # 从用户行为日志数据集behavior_log 7亿 条数据中选取 100万 条 import pandas as pd import warnings warnings.filterwarnings("ignore") pat...原创 2020-02-04 14:44:32 · 626 阅读 · 0 评论 -
Spark Preprocessing&FE practice
最近因为要做推荐系统 ,为了熟悉 pyspark 的操作,并且熟悉一下处理日志数据 , 故尝试处理此数据集 数据集介绍 Ali_Display_Ad_Click是阿里巴巴提供的一个淘宝展示广告点击率预估数据集。 下载地址 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56 , 数据名称 说明 属性...原创 2020-02-04 14:38:28 · 357 阅读 · 0 评论 -
Spark-Streaming 对接 Kafka
在官网下载,对应 spark 和 scala 版本的 jar 包 https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-8-assembly 我在 spark 的目录下 创建了一个 external_jars 的目录,并把这个 jar 包放到这个目录下 启动 spark 启动 zookeeper 启...原创 2020-02-01 14:30:12 · 538 阅读 · 1 评论 -
Spark-SQL note
Spark-SQL spark SQL是 spark 中用于处理结构化数据的一个模块 用 python 操作 RDD 慢:要转换可执行代码,在 JVM 中运行,涉及不同语言引擎间的切换,进行进程间的通信很耗费时间 DataFrame 以RDD为基础的分布式数据集,类似于关系型数据库的二维表 DataFrame引入 schema 和 off-heap 1.解决了RDD的缺点 序列化和反序列化开销...原创 2020-01-30 23:12:00 · 172 阅读 · 0 评论 -
Spark-Core 实践,用户 ip 定位
根据 ip 库中的 ip 范围判断 给定 ip 所在地,ip库中的 ip 范围是有序的 ip库 用户 ip 数据 代码 from pyspark.sql import SparkSession import sys # 将 ipv4 字符串转换为整数 def ip_transform(ip): ips = ip.split(".") ip_num = 0 for i ...原创 2020-01-30 15:54:39 · 254 阅读 · 0 评论 -
Spark-Core note
RDD的三类算子 Transformation 通过已有的RDD生成新的RDD 惰性计算:Transformation 只会记录RDD的转化关系,不会触发计算(类似于py 里面的惰性序列,如 zip) 举例:map,filter,groupBy,reduceBy 优点:可以中间插入优化过程 Action 通过RDD计算得到一个或者一组值 Action是立即执行的 举例:cout,reduce...原创 2020-01-30 11:33:14 · 217 阅读 · 0 评论