大数据技术
文章平均质量分 87
spark
houjibofa2050
读源码,要有技术深度,做一个把一招练一万遍的程序员。
展开
-
Hadoop2.7.0 win10 源码编译与集群部署
目录 1.源码下载 2.环境配置 3.打包前注意事项 4.执行最后打包 5.参考 1.源码下载 hadoop2.7.0下载地址 2.环境配置 参考源码目录下的BUILDING.txt 我的环境配置 环境配置 软件名称 软件版本 操作系统 win10 JDK 1.8 microsoft visual studio microsoft visual studio 2017 Protoco...原创 2021-09-05 20:30:21 · 239 阅读 · 0 评论 -
spark scala 统计单词的个数
spark scala 统计单词的个数 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Hello { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home...原创 2020-01-26 08:08:55 · 1711 阅读 · 0 评论 -
pyspark 对用户的购买商品记录作出统计
统计一共售出多少个商品,一共有多少个顾客,所有商品的累加和,售卖最流行的商品 数据UserPurchaseHistory.csv 用户名称,商品名称,价格 John,iPhone Cover,9.99 John,Headphones,5.49 Jack,iPhone Cover,9.99 Jill,Samsung Galaxy Cover,8.95 Bob,iPad Cover,5.49 ...原创 2018-12-13 15:44:24 · 502 阅读 · 0 评论 -
spark wordcount 单词统计
spark wordcount 单词统计 文件1.txt hello world hello tom hello lucy tom lucy hello python # -*- coding:utf-8 -*- import os import shutil from pyspark import SparkContext inputpath = '1.txt' outputpat...原创 2018-12-13 14:58:06 · 259 阅读 · 0 评论