spark
仙人掌_lz
数据挖掘学习者
展开
-
spark基础知识
本文转自http://www.cnblogs.com/felixzh/p/6371318.html1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架。dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可转载 2017-08-07 17:26:13 · 414 阅读 · 0 评论 -
Spark机器学习入门·编程(scala/java/python)实现分析商店购买记录
本文转自:Spark机器学习入门·编程(scala/java/python)实现分析商店购买记录http://www.aboutyun.com/forum.php?mod=viewthread&tid=20707(出处: about云开发)Spark安装目录[Bash shell] 纯文本查看 复制代码?1转载 2017-07-27 09:34:09 · 932 阅读 · 0 评论 -
使用maven构建一个基于Java的spark应用程序用于统计唐诗三百首中各汉字出现的次数
目的:统计唐诗三百首全集每个汉字出现的次数软件需求: 下载 Eclipse ,安装Maven 安装好JDK1.8 下载并配置了hadoop-2.7.3 spark-2.2.0-bin-hadoop2.7步骤:1,创建Maven Project根据提示一步步走---选择 Maven-archetype-原创 2017-07-25 17:11:35 · 830 阅读 · 0 评论 -
pyspark学习系列(一)创建RDD
由于个人工作需要spark,然后我有事一个编码门外汉,数据分析出身,除了学习了简单的sql,那么目前本人掌握的语言也就是python(JAVA教程看了一周放弃了),用python学习机器学习,然后在项目中实践了部分内容,现在想把项目搬到集群上去,所以要学习spark,但是发现网上关于pyspark的教程真的是太少了,本系列讲以《pyspark实战指南》为基础,详细介绍本人学习pyspark过程中的...原创 2018-03-16 23:34:01 · 9906 阅读 · 4 评论 -
pyspark学习系列(二)读取CSV文件 为RDD或者DataFrame进行数据处理
一、本地csv文件读取:最简单的方法:import pandas as pdlines = pd.read_csv(file)lines_df = sqlContest.createDataFrame(lines)或者采用spark直接读为RDD 然后在转换lines = sc.textFile('file'))如果你的csv文件有标题 的话,需要剔除首行header = lines.firs...原创 2018-03-20 15:59:07 · 16303 阅读 · 0 评论 -
pyspark学习系列(三)利用SQL查询
对于spark 中存在dataframe,我们可以用 .creatOrReplaceTempView方法创建临时表。临时表创建之后我们就可以用SQL语句对这个临时表进行查询统计:from pyspark.sql.types import *# Generate our own CSV data # This way we don't have to access the file sys...原创 2018-03-31 10:45:51 · 5652 阅读 · 0 评论 -
pyspark学习系列(四)数据清洗
from pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession from pyspark.sql import SQLContextfrom pyspark.sql.types import *spark=SparkSession.builder.appName("lz").getOrCreat...原创 2018-04-08 17:56:05 · 4478 阅读 · 1 评论