Spark
文章平均质量分 92
用来记录Spark的学习历程
V丶Chao
记录自己的学习过程,时常反思,时常进步
展开
-
分布式机器学习
20221216 -(本文为在进行大量的实验过程中的一些思考,主要关注利用分布式平台进行实验的相关内容,内容暂时不加整理,想到什么写什么)原创 2022-12-16 17:08:15 · 866 阅读 · 0 评论 -
大规模数据的PCA降维
20200810 -0. 引言最近在做的文本可视化的内容,文本处理的方法是利用sklearn的CountVer+Tf-idf,这样处理数据之后,一方面数据的维度比较高,另一方面呢,本身这部分数据量也比较大。如果直接使用sklearn的pca进行降维,会很慢,而且pca也没有n_jobs来支持多线程工作。不过,我看到spark中已经支持的pca了,所以希望通过spark来实现这部分内容。1. spark的PCA算法1.1 官方使用示例>>> from pyspark.ml.lina原创 2020-08-10 16:41:52 · 1972 阅读 · 0 评论 -
spark进行大数据量的爆破计算任务(分布式)
20200806 -1. 引言在编程过程中,遇到这样一个问题,给定一个范围,需要通过对这个范围的内容数值进行运算来返回结果。说白了,就是进行爆破。但是这个数据量太大了,0-0xffffffff,可以想象这个数据量有多大。一开始的时候我在想使用python的多线程/多进程来完成这个工作,但是我记得python有一个全局锁,并不是真正意义上的多线程(这部分知识需要回顾一下)。所以,我就考虑使用spark或者hadoop来进行这部分运算来实现。2. spark的分段式计算2.1 问题描述平时的时候,使用原创 2020-08-06 16:55:29 · 1482 阅读 · 1 评论 -
Spark - 学习概述
2020/06/30 -该部分记录将作为后续相应学习的重要参考,一部分技术或者原理在长时间不使用之后,必然会出现淡忘的结果,而我以前的学习方式就是反复的去重新学习,这种学习方式必然是非常低下的。所以这里就出现了这份记录。这份记录主要从《Learning Spark》英文原版(2015年第一版)的内容入手,通过这本书来学习整个spark的脉络;因为已经有过原理的理解,也有过代码的实践,所以对于这...原创 2020-06-30 19:44:14 · 634 阅读 · 0 评论 -
《Learning Spark》第三章:使用RDD进行编程
2020/06/30 -2020/06/30 21:30形成初稿引言本章节主要介绍关于RDD两种基础操作。对于一般的spark数据分析应用而言,大致的流程如下:创建RDD(从外界导入数据);对RDD进行一系列的操作;最后将RDD的结果保存;本章将按照《Learning Spark》(2015年第一版)中的脉络来梳理这部分内容。实际上,对于结构化的数据来说,Spark支持利用Da...原创 2020-06-30 19:44:20 · 746 阅读 · 0 评论 -
《Learning Spark》第四章:处理key/value形式的数据
2020/07/04 -引言这部分内容在我当时处理流量数据的时候是用的最多的东西,即使后续的时候是使用DataFrame形式的数据,其实也是按照key/value形式来进行这部分操作。我应该明白,这种形式的数据是处理的基础,对比hadoop的处理方式就明白了,最简单的例子就是wordcount,就是按照word为key;然后即使是DataFrame有时候也会经常使用这种形式来进行聚合,或者gr...原创 2020-07-04 19:36:56 · 988 阅读 · 0 评论 -
《Learning Spark》第五章:加载和保存文件
2020/07/07 -引言这部分的内容属于实际情况中使用的内容,这些内容可能很多时候都用不到的,所以这里我主要按照使用过程中用到了再来记录。加载json文件1. 加载json文件读取json文件有两种,跟csv一样,一种是通过saprkSession来获取具体的DataFrame形式的数据;另一种是通过sc.textFile来获取行组织的文本数据。下面先来说第二种。#spark是...原创 2020-07-07 18:55:17 · 689 阅读 · 0 评论 -
《Learning Spark》第七章:Spark集群运行
2020/07/11 -引言本章节属于对Spark的运行架构进行简单介绍的部分,通过对其底层的运行基础进行讲解,这部分讲解可以对底层的运行原理有更深入的理解,后续进行调优会更方便。比如说,我之前一直纠结的(其实,当时也学会了,但是没有记录,所有还是都忘了),worker在执行过程中的身份,然后资源如何分配会更好,这些内容。(当前2020年,spark已经到了3.0版本,是否这本书的内容已经过...原创 2020-07-11 09:56:06 · 657 阅读 · 0 评论 -
《Learning Spark》第十一章:Spark(MLlib)与机器学习
2020/07/06 -引言我一直以为这部分内容,其实没有什么大不了的,反正就是弄出来数据,然后跑算法就完事了嘛。但是仔细读了读这小节,发现了一些不一样的地方。这里来列举一下,我读完这个章节之后的一些想法,然后再具体来记录这部分的主要内容。1)他算法的输入是需要转化一下的(向量),我看到的大多是通过了某种特征工程的东西,然后这种就已经是满足的数据格式了,不知道普通的矩阵向量应该怎么弄呢?ma...原创 2020-07-06 16:37:55 · 738 阅读 · 0 评论 -
《Learning Spark》第八章:调优及调试spark应用
2020/07/05 -引言我记得当时我就是因为使用hadoop太过费劲了,才上手的spark,然后因为自己的机器性能不行,又一点一点调优;当时调优的过程,主要是从底层的结构上来进行调优,主要就是那些worker数量以及内存大小等等。但是对于stage这些执行过程中的细粒度信息没有太过关注,现在我也不是非常理解这部分内容,特别是前几天从这个spark ui上来查看的时候,就感觉非常茫然。再说...原创 2020-07-05 20:06:00 · 646 阅读 · 0 评论 -
Spark机器学习实例
2020/07/09 -引言《Learning Spark》过程中只是简单介绍了mllib中的东西,没有一个完整的实践过程,暂时还没有去找有没有专门做这种的书,好像我看《spark in action》是有这部分内容,后续在看。本篇文章就利用这个鸢尾花的数据集来简单说明一下spark机器学习的过程,只是简单打下一个轮廓,然后记录使用过程中遇到的问题以及解决方案。在本文中,主要使用新版面向Da...原创 2020-07-09 09:09:48 · 13735 阅读 · 2 评论 -
Spark使用过程的个人经验
2020/07/07 -机器学习库的版本问题在《Learning Spark》的学习过程中,有一个问题其实挺关键的,就是版本问题,这个问题就导致虽然你能学到核心的概念,但是有些操作实践已经得不到满足了。在机器学习的库中就存在这个问题,书上的版本是mllib,这个是面向RDD的机器学习api;但是新版中是面向DataFrame的api,ml库。sparkcontext的问题sparkcon...原创 2020-07-07 10:16:25 · 947 阅读 · 0 评论 -
spark中DataFrame的使用方法
2020/07/08 -引言《Learning Spark》中使用的spark版本还是比较低的,所以对于DataFrame部分基本上没有涉及,虽然在sparkSql中提到了schemaRDD这个内容。到目前为止,我感觉DataFrame的很多使用方法是跟pandas的DataFrame很像的;如果想看比较全面的操作,可以看这个文章,Spark-SQL之DataFrame操作大全 - 一片黑 ...原创 2020-07-08 09:10:15 · 1366 阅读 · 0 评论