分布式
萤火虫之暮
这个作者很懒,什么都没留下…
展开
-
window 10下 Spark 安装简单使用
文章目录安装虚拟机管理软件vagrant:安装VirtualBox, vagrant默认使用VirtualBox:使用windows的powershell:进入centos, 安装jdk:安装spark:运行spark:测试spark:安装虚拟机管理软件vagrant:https://www.vagrantup.com/downloads.html安装VirtualBox, vagrant...原创 2019-03-03 17:52:24 · 830 阅读 · 1 评论 -
spark搭建和使用,处理massive文件
文章目录1. 本地安装spark1.1 安装Anaconda1.2 安装JDK 1.81.3 安装spark1.3.1 安装spark for hadoop版本1.3.2 添加环境变量1.4 安装hadoop1.4.1 下载hadoop1.4.2 配置环境变量1.4.3 添加winutils.exe补丁1.5 安装pycharm1.6 使用1.6.1 创建sparkContext,注意pychar...原创 2019-08-02 10:26:36 · 370 阅读 · 0 评论 -
50-100G大文件的处理办法
文章目录1. 使用分布式框架处理,如上次介绍的spark2. 使用pandas chunk, 不比单机版的spark慢1. 使用分布式框架处理,如上次介绍的spark这种情况下集群才有优势,local单机版只能使用8G内存,rdd的优势也没发挥出来,好在是多patition和多任务。2. 使用pandas chunk, 不比单机版的spark慢import pandas as pddf_...原创 2019-08-02 11:34:42 · 1839 阅读 · 0 评论