Spark
文章平均质量分 81
皮皮冰燃
故障诊断、信号分析、大数据处理
展开
-
spark-7-spark streaming向kafka生产数据
如何正确使用pyspark将数据发送到kafka经纪人?从kafka主题中接收数据,对该数据进行一些转换,然后将转换后的数据放在另一个kafka主题中。1 参数写在代码里#encoding=utf8from pyspark import SparkConf, SparkContextfrom operator import addimport sysfrom pyspark.streaming import StreamingContextfrom pyspark.streaming.kaf原创 2021-12-19 13:01:25 · 1574 阅读 · 0 评论 -
spark-6-spark streaming对接消费kafka
【注意:spark伪分布式安装需要至少2个core才能保证输出sparkstreaming处理的kafka信息】【注意:spark单机版需要至少local[2]才能保证】(1)python3.6Anaconda安装(2)查看spark的版本进入/usr/local/spark/jars查看jar包确认版本【spark2.4.5】(3)查看kafka版本进入/usr/local/kafka/libs查看jar包确认版本【kafka2.2.0】1 软件及相关依赖【https://mvnrepos原创 2021-08-26 15:09:52 · 244 阅读 · 0 评论 -
spark-5-windows10中配置spark编程环境
1 安装配置(1)安装Java安装包:jdk-8u201-windows-x64.exe自动环境变量:D:\Java\jdk1.8.0_201\bin(2)解压安装spark安装包:spark-2.4.5-bin-hadoop2.7.tgz解压路径:D:\spark-2.4.5-bin-hadoop2.72 代码测试from pyspark import SparkConf,SparkContextimport osos.environ["SPARK_HOME"]="D:\\spark原创 2021-01-02 14:19:08 · 264 阅读 · 0 评论 -
spark-4-spark集群安装
1 资源准备(1)linux系统:centos7.6(2)java环境jdk安装包:jdk-8u144-linux-x64.tar.gz官网下载地址:https://www.oracle.com/technetwork/java/javase/downloads/java-archive-javase8-2177648.html(3)scala环境安装包:scala-2.11.11.tgz官网下载地址:https://www.scala-lang.org/download/【可以不用安装】原创 2020-09-11 13:48:39 · 166 阅读 · 0 评论 -
spark-3-大数据spark单机安装
1 下载网址http://spark.apache.org/downloads.html下载的版本,没有预编译hadoop,简单配置后可以应用到任意Hadoop版本。2 单机安装2.1 Java安装JDK2.2 Hadoop安装Spark会用到HDFS与YARN,因此需要先安装Hadoop,即必须安装Hadoop才能使用Spark。但是如果使用Spark过程中没有用到HDFS,不启动Hadoop也是可以的,但是必须安装。2.3 Spark安装2.3.1 解压$ sudo tar -xzv原创 2020-07-15 21:02:18 · 1445 阅读 · 0 评论 -
spark-2-创建DataFrame
(1)数据文件people.txtlucy,20lily,21(2)代码import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{ Row, SparkSession}object zz { def main(args: Array[String]): Unit = { //新建SparkSession会话 val spark = S原创 2020-07-11 11:38:31 · 144 阅读 · 0 评论 -
spark-1-windows中用scala编写spark应用程序
不需要在windows系统中安装spark。直接使用IntellIj IDEA下载相关依赖,开发即可。(1)添加spark的依赖val sparkVersion = "2.4.5"libraryDependencies += "org.apache.spark" % "spark-core_2.11" % sparkVersionlibraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % sparkVersionlib原创 2020-07-10 17:28:57 · 183 阅读 · 0 评论