![](https://img-blog.csdnimg.cn/20190916213859530.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
追枫萨
更厉害的大人和更可爱的小孩...
展开
-
Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格
实现from pyspark.sql.functions import *#df_tmp为DF对象,包含列“captureTime”df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()结果原创 2020-05-13 17:14:15 · 2680 阅读 · 0 评论 -
Pyspark消费kafka集群某一topic中json数据并保存到hdfs上
需求对于进入到Kafka中的实时数据可以通过Flume从Kafka中消费并输出保存到hdfs上。但对于Kafka中历史数据,Flume不起作用了,可以通过spark streaming从头消费Kafka主题中json数据,并将数据以json形式保存到hdfs上。查看json数据#执行pyspark进入交互界面,执行以下代码查看从kafka中读到的json数据,#topic:dl_f...原创 2020-05-07 18:17:49 · 1687 阅读 · 5 评论 -
Pyspark实现RDD与DataFrame转换
https://stackoverflow.com/questions/32742004/create-spark-dataframe-can-not-infer-schema-for-type-type-float原创 2020-03-26 22:51:37 · 2376 阅读 · 0 评论 -
PySpark实现给DataFrame对象添加一列值
作用lit(“haha”)->返回的字面值haha方法:# df.withColumn(“time”,“201905”) 会报错,说没有引用其他列值from pyspark.sql.functions import *df=df.withColumn("time",lit("201905")) #这样就增加一列time,值全为201905字符串了...转载 2020-03-19 16:26:21 · 3219 阅读 · 6 评论 -
PySpark中DataFrame对象求交集
环境: ubuntu14+spark2.3.3+pycharm+scala2.11启动spark:/spark/sbin/start-all.shtest.csv文件内容:测试代码:# python3# -*- coding:utf-8 -*-# @Time: 10/28/19 2:10 AM# @Author: Damon# @Software...原创 2019-10-28 02:46:11 · 1064 阅读 · 0 评论 -
Structured Streaming中StructType与StructField的嵌套使用
DataFrame的schema列的结构如下:则pyspark定义的schema的代码实现如下:schema =StructType([StructField("window",StructType([StructField("start",TimestampType(),True), StructField("end",Timest...原创 2019-09-20 10:45:27 · 1903 阅读 · 0 评论 -
解决 spark集合kafka中Failed to find data source: kafka.问题
问题:消费者程序consumer_result.py消费kafka中内容,将py文件提交到spark中运行时,提示“Failed to find data source: kafka”运行代码如下:/usr/local/spark/bin/spark-submit consumer_result.py解决:运行命令改为如下:#2.3.3对应spark2.3.3,2.11...原创 2019-09-19 10:43:11 · 8325 阅读 · 0 评论 -
PySpark学习资源
环境搭建及基础:子雨大数据及Spark入门教程(Python版)Apache Spark中国技术社区Spark Structured StreamingStructured Streaming using Python DataFrames API(超赞)Structured Streaming Programming Guide官方文档:pyspark2.4.4公众号:S...原创 2019-09-16 10:42:04 · 417 阅读 · 0 评论 -
pyspark的DataFrame的groupBy方法实践
csv内容:# python3# -*- coding:utf-8 -*-# @Time: 9/2/19 12:03 PM# @Author: Damon# @Software: PyCharmfrom __future__ import print_functionfrom pyspark import SparkConf,SparkContextfrom pys...原创 2019-09-02 19:42:36 · 14500 阅读 · 0 评论 -
Spark学习资源
Spark RDD、DataFrame原理及操作详解Spark-SQL之DataFrame操作大全Spark 读写CSV的常用配置项Spark专栏原创 2019-09-03 14:23:28 · 114 阅读 · 0 评论 -
解决Spark sql中crossJoin错误
问题:对两个DataFrame对象执行Join操作时,提示错误如下:环境-->Spark2.3.3解决:将SparkSession对象的“spark.sql.crossJoin.enabled”设为TrueSparkSession.builder.appName("TestApp").master("local").config("spark.sql.crossJoin...原创 2019-09-03 14:58:49 · 1326 阅读 · 0 评论 -
解决spark中‘NoneType’ object is not callable问题
问题:代码部分:RDD.foreach(print())解决:将print()改为print原创 2019-09-03 17:03:51 · 1065 阅读 · 0 评论 -
SparkStreaming基础
一 资源:Spark编程基础(Python) 大数据之Spark入门教程(Python)二 流计算处理流程: 1.数据实时采集-->多数据源的海量数据,实时性、低延迟、可靠性 1.1 FaceBook的Scribe 1.2 领英的Kafka 1.3 hadoop平台的Flume 2.数据实时...原创 2019-09-04 18:28:04 · 158 阅读 · 0 评论 -
SparkStreaming之套接字流(使用NC程序产生数据)
一 环境 ubuntu14+pycharm+python3.6+spark2.3二 目的 使用NC程序作为套接字服务端数据源,实现wordcount功能三 步骤 1.启动socket服务器端:打开shell交互式窗口,执行命令:nc -lk 9999,监听9999端口 2.编写Socket.py文件作为socket客户端,接收三...原创 2019-09-05 11:19:50 · 1609 阅读 · 0 评论 -
SparkStreaming之套接字流(使用Socket编程实现自定义数据源)
一 环境 ubuntu14+pycharm+spark2.3+python3.6二 目的 python代码自定义Socket服务器端作为SparkStreaming数据源,实现wordcount功能三 步骤 1. 实现Socket服务器端:编写DataSourceSocket.py,指定绑定主机ip及端口号# python3# -*- coding:utf-8 ...原创 2019-09-05 11:54:59 · 2206 阅读 · 0 评论 -
解决Structuredstreaming 输出到console提示 localhost:9000 failed on connection exception: Connection refused
问题:执行一下语句进行调试pyspark编写的Structed Streaming程序query = df_tmp2\ .writeStream.outputMode("complete").format("console") \ .start()提示:Call From ubuntu/127.0.1.1 to localhost:9000 fail...原创 2019-09-12 16:15:43 · 951 阅读 · 0 评论 -
解决ubuntu中提示zookeeper is not a recognized option问题
问题创建消息:消费消息命令提示信息如下,无法消费:原因:kafka版本问题,高版本不再支持此消费命令,新的消费命令如下:./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic wordsendertest --from-beginning执行新命令后成功消费:...原创 2019-08-19 10:37:54 · 13343 阅读 · 3 评论