spark
mid_python
一名热衷于web开发、爬虫技术、数据分析处理、AI领域的技术爱好者,也是一个乐于分享的作者。
展开
-
RDD
#使用文本文件做数据源 sc = SparkContext.getOrCreate(conf) rows = sc.textFile("file:///Users/chuzhengkai/Desktop/test.txt") print(rows.first()) print(rows.take(2)) print(rows.count()) print(rows.top(2)) sc.stop(...原创 2018-05-13 13:42:40 · 257 阅读 · 0 评论 -
spark sql
# 航班数据分析实战 # 1, 查看航班信息Schema # 2, 提取关注字段, 做航班信息简明情况报表 # 3, 指定日期, 查询航班信息简报 # 4, 分组查询, 按航班号分组, 查询延迟次数 # 5, 分组查询, 按目的地机场分组, 查询延迟次数 # 6, 聚合查询, 查询某天某机场到达航班总数量 # 7, 聚合查询, 查询某天某机场到达航班平均延迟时间 # 8, 分组聚合, 查询某机场...原创 2018-05-13 13:45:40 · 263 阅读 · 0 评论 -
数据可视化
#准备 pyspark 环境 from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession,Row from pyspark.sql import functions as func #创建应用程序实例和会话 spark = SparkSession.builder\ .maste...原创 2018-05-13 13:58:19 · 474 阅读 · 0 评论 -
数据整理
数据分析之数据整理 1, 数据表合并与空值处理 2, 重复值与异常值处理 3, 增加与修改列 4, 数据采样与描述性统计#准备 pyspark 环境 from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession,Row #创建应用程序实例和会话 spark = SparkSession.build...原创 2018-05-13 14:06:23 · 438 阅读 · 0 评论