大数据
文章平均质量分 84
Great1414
不破不立
展开
-
Spark学习系列之SparkContext
1. SparkContext类是Spark的关键类,代码在这里:./core/src/main/scala/org/apache/spark/SparkContext.scala。SparkContext是Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。从本质上来说,SparkContext是Spark的对外接口,负责向调用这提供Spark的各种功能。它的作用是一个容器。...转载 2018-11-12 11:09:49 · 291 阅读 · 0 评论 -
python对hdfs/spark读写操作(hdfs/pyspark)
利用python将数据保存到hadoop的hdfs目录下,利用spark读取hdfs目录下内容,然后做sql统计。原创 2018-12-19 18:36:05 · 17322 阅读 · 1 评论 -
关于kafka的搭建及问题
文章目录0-背景1-kafka搭建2-总结3-参考文献0-背景最近业务需要搭建一套实时故障诊断系统。数据从传感器来,然后通过http流或者websocket等协议推送,然后生产到kafka,最后使用机器学习模型,进行消费。整个流程是这样子的,里面一些具体的内容,还不不断的摸索和完善。这两天,搭建了一个单机版的kafka,然后利用python的kafka API跑了个简单的例子。下面先说下...原创 2019-04-12 17:47:16 · 361 阅读 · 0 评论 -
利用python对kafka进行消息生产和消息消费
文章目录0-背景1-kafka-python2-流程3-总结0-背景上一篇文章中,我们介绍了如何安装kafka。这篇文章,我们讲下,如何用python操作kafka。1-kafka-python首先,我们在上篇文章的环境中,安装了ananconda(找了其他目录安装即可)。安装的教程可以去网络百度,先下载然后再安装,比较简单。需要安装kafka-python,以便python链接kafk...原创 2019-04-12 18:06:00 · 5205 阅读 · 0 评论 -
IDEA中scala实现word_count,sbt打jar包,并发送linux中spark运行(sbt打包详细)
文章目录0-背景1-spark安装2-IDEA开发3-参考0-背景最近因为业务需求,开始鼓捣下kafka和spark。因为也是第一次做这方面的内容,而且没玩过java和scala。所以这个word count的例子,鼓捣了近两天才出结果。整个流程如下:首先搭建虚拟机,安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala,并打包jar包,发送到spark系统...原创 2019-04-24 14:57:57 · 1633 阅读 · 2 评论 -
一个简单的Spark ML的例子
文章目录1-配置2-流程3-注意4-project1-配置首先,我在虚拟上,搭建了一个单机spark2.4.1(无hadoop)。然后在本地的IDEA中远程运行spark,操作一个svm的小例子。sbt文件:name := "spark_ml_examples"version := "0.1"scalaVersion := "2.11.12"libraryDependencies +...原创 2019-05-05 17:33:22 · 4479 阅读 · 0 评论 -
spark中RDD与DataFrame的转换
文章目录转换转换rdd > dataframe:rdd.toDF()spark.createDataFrame()dataframe > rdd:df.rdd原创 2019-05-09 14:09:59 · 1047 阅读 · 0 评论 -
pycharm利用pyspark远程连接spark集群
文章目录0 背景1 方法2 测试3 参考0 背景由于工作需要,利用spark完成机器学习。因此需要对spark集群进行操作。所以利用pycharm和pyspark远程连接spark集群。这里记录下遇到的问题及方法。主要是参照下面的文献完成相应的内容,但是具体问题要具体分析。1 方法1.1 软件配置spark2.3.3, hadoop2.6, python31.2 spark配置Sp...原创 2019-08-29 10:29:03 · 8984 阅读 · 0 评论