![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 54
Gklearlove
数据小开发
展开
-
PySpark报错:Connection reset by peer: socket write error
pyspark报错如下:Caused by: java.net.SocketException: Connection reset by peer: socket write error at java.net.SocketOutputStream.socketWrite0(Native Method) at java.net.SocketOutputStream.socketWrite(SocketOutputStream.java:111) at java.net.SocketOutputStr原创 2022-02-11 15:27:28 · 1968 阅读 · 0 评论 -
Spark一次性读取多个目录(嵌套)下多个文件
Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)sc = spark.sparkContextrdd = sc.textFile("/file/*/part-*")举例:当前目录:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hdvK2g4M-1644562997368)(C:\Users\guokai02\AppData\Roaming\Typora\typora-user-images\image-2022021115原创 2022-02-11 15:06:57 · 3023 阅读 · 0 评论 -
大数据常见错误
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries!解决方法:add export SPARK_LOCAL_IP=“127.0.0.1” to spark-env.sh2、java Kafka producer error:ERROR kafka.utils.Utils$ - fetchi转载 2021-07-30 11:46:50 · 1426 阅读 · 0 评论 -
Spark个人理解(基础)
Spark学习一、Spark整体架构介绍Spark组件Spark Core提供内存计算框架Spark Streaming 伪实时计算应用Spark SQL 数据查询处理MLlib 机器学习GraphX/Grapframes 图处理Spark(与Hadoop区别):执行引擎:DAG计算方式:内存计算Spark特点:运行速度快...原创 2019-10-23 13:17:33 · 191 阅读 · 1 评论