PySpark
PySpark学习总结
Macanv
脚踏实地,每天进步一点点
展开
-
pySpark读写MongoDB
最新想对mongo中一个上亿的大collection进行操作,做一些数据分析,发现使用find()对表进行轮询是真的慢啊,想起使用spark进行数据处理,这里记录一下pyspark对mongo的操作,走了一些小坑。内容比较简单,直接上代码:#!/usr/bin/env python3# -*- coding: utf-8 -*-"""@Time : 2021/6/16 9:20@Author : MaCan@Mail : [email protected]@File :原创 2021-06-23 09:39:48 · 1136 阅读 · 0 评论 -
Spark中得groupBy,reduceByKey和 combineByKey区别于各自用法 (5)
Spark中得groupByKey,reduceByKey和 combineByKey区别于各自用法这篇博文记录Spark中经常使用到的shuffle操作groupByKey,reduceByKey和 combineByKey,其中前面两个分别还有不带Key,可以在RDD的trans过程中自定义key的用法,在前面的计算TF-IDF文章中有使用到。下面就一一的来介绍这三个API,使用词频统计的...原创 2019-02-21 21:48:12 · 4693 阅读 · 0 评论 -
Windows下PySpark 环境搭建篇以及词频统计(1)
Windows下pyspark环境搭建以及使用结巴分词进行词频统计1. 环境搭建环境搭建的教程已经有很多人写了,我就不多写了, 大家自行百度(推荐在Windows下面安装2.3.1版本的pyspark也是这个版本,避免后面踩坑https://github.com/apache/spark/pull/23055)在这里下载spark的软件包放到任意目录,解压后路径避免空格,然后将bin路径加...原创 2019-02-18 11:34:45 · 777 阅读 · 0 评论 -
PySpark TF-IDF计算(2)
使用PySpark进行TF-IDF计算这篇博文将记录使用PySpark进行TF-IDF统计的过程,将提供多种计算方法。1. 准备数据为了简单,同时为了验证自己的程序有木有错误,我使用如下的测试数据:1 我来到北京清华大学2 他来到了网易杭研大厦3 我来到北京清华大学4 他来到了网易杭研大厦5 我来到北京清华大学,我来到北京清华大学一共五行,每行代表一篇文章,每行中得文章id和正...原创 2019-02-19 20:26:40 · 5271 阅读 · 8 评论 -
在分布式环境Spark中关闭jieba延时加载等优化方法 (3)
在分布式环境中关闭jieba延时加载的方法这篇博客是记录在使用spark+jieba的过程中,每个task调动jieba分词的时候需要进行延时加载或者从缓存中读取模型文件从而浪费时间问题:Building prefix dict from the default dictionary ...Loading model from cache C:\Users\C\AppData\Local\T...原创 2019-02-21 14:43:02 · 2021 阅读 · 4 评论 -
PySpark TopK 问题(分组TopK)(4)
PySpark TopK 问题(分组TopK)记录几种利用PySpark计算TopK的方法,准备使用两个例子,其中第一个例子是计算不同院系,不同班,不同学科的成绩前K名的分数。第二个例子以文本数据为例,计算在不同文本类别下出现TopK 频率的单词。1.准备数据1,111,68,69,90,1班,经济系2,112,73,80,96,1班,经济系3,113,90,74,75,1班,经济系4...原创 2019-02-21 15:29:10 · 1501 阅读 · 0 评论