spark
00的小尾巴
好好学习,天天向上
展开
-
RDD数据清洗-变压器
进行数据清洗:transformer.pyfrom pyspark import SparkContextdef main(): sc=SparkContext(appName="tranformer_counter") raw=sc.textFile("file:///root/spark/transformer.csv") rdd=raw.map(lambda x:x.split(",")[1:3])\ .map(lamb...原创 2022-05-22 14:05:54 · 402 阅读 · 0 评论 -
spark-编写Structured Streaming程序的基本步骤-词频统计
structured_streaming.py代码from pyspark.sql import SparkSessionfrom pyspark.sql.functions import splitfrom pyspark.sql.functions import explodeimport sysif __name__=="__main__": spark=SparkSession\ .builder\ .appNam...原创 2022-05-11 15:23:40 · 768 阅读 · 0 评论 -
spark-streaming统计各岗位招聘信息行数
搭建集群重新开一个端口还是在spark-master里面运行一直在不停的统计数据job.py代码:# import findspark# findspark.init()from pyspark import SparkContextfrom pyspark.streaming import StreamingContextdef updateFunc(values,state): cnt = 0 for v in values: ...原创 2022-05-10 08:39:12 · 565 阅读 · 0 评论 -
spark-信用卡欺诈识别
题目:代码:fault_detect.pyimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextdef detect(new_values,fault_state): for value in new_values: if value<1.0: fault_state=1.0 elif val原创 2022-05-04 15:08:15 · 642 阅读 · 0 评论 -
spark-接上上次(02)改进
socket_wordcpunt.py代码:import sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContext if __name__=="__main__": sc=SparkContext(appName="PythonStreamingNetworkWordCount") sc.setLogLevel("ERROR") ssc=StreamingConte原创 2022-05-03 09:39:54 · 678 阅读 · 0 评论 -
搭建spark集群-00
spark集群搭建原创 2022-05-01 14:47:02 · 1398 阅读 · 0 评论 -
文件流-01-fileStreaming.py文件运行
fileStream.py代码from pyspark.streaming import StreamingContextfrom pyspark import SparkContextsc=SparkContext(appName='test straming')sc.setLogLevel("ERROR")ssc=StreamingContext(sc,2)line=ssc.textFileStream("file:///root/recruit/data")rdd=line.m原创 2022-05-01 14:29:12 · 136 阅读 · 0 评论 -
spark-词频统计02-socket流--nc版无socket_server
socket流词频统计2、新开一个worker1窗口3、在maser窗口输入词频,以“ ”空格分开原创 2022-05-01 14:19:23 · 972 阅读 · 0 评论 -
spark部分03-socket流~自定义socket服务器
搭建集群:docker load --input spark.tardocker-compose up -ddocker psdocker exec -it spark-master bash #在主机端口jps#查看在主机窗口:重新开一个窗口worker1:结果:socker-server.py代码# from concurrent.futures import thread# from distutils.log imp...原创 2022-04-27 15:27:23 · 522 阅读 · 0 评论