![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
零一睡不醒
人生苦短
展开
-
Spark的基本概念
2018年年末,开始spark学习 http://dblab.xmu.edu.cn/blog/1709-2/ 1 spark 涉及的名词解析 Block 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 InuptSplit 当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并...原创 2018-12-29 09:39:54 · 484 阅读 · 0 评论 -
win10 安装单机版 pyspark
参考这篇博客: https://blog.csdn.net/weixin_38556445/article/details/78182264 默认已经电脑已经安装java 和 python。 1 需要安装spark 和 hadoop (python3.6 需要spark2.1以上版本) 两者作相同处理:解压之后,还需要完成SPARK_HOME和bin环境变量相关配置;HADOOP_HOME...原创 2018-12-29 16:46:40 · 1042 阅读 · 0 评论 -
Spark ml 之一 简单的文本多分类
主要参考:使用PySpark处理文本多分类问题 和 python机器学习的流程一样。ml提供了机器学习的各种接口。本文主要记录ml 里数据读取、预处理、模型使用的基础知识。 第一步 读取数据 from pyspark.sql import SQLContext from pyspark import SparkContext sc =SparkContext() sqlContext = ...原创 2019-01-02 10:30:48 · 1219 阅读 · 6 评论 -
ubuntu spark 的环境变量
JAVA_HOME=/usr/local/java/jdk1.8.0_201 SCALA_HOME=/usr/local/scala SPARK_HOME=/usr/local/spark JRE_HOME=${JAVA_HOME}/jre PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin export CLA...原创 2019-01-24 09:29:43 · 715 阅读 · 0 评论 -
日志文件是如何传到数据库的
def dbfunc(records): db = pymysql.connect("localhost","root","root","spark") cursor = db.cursor() def doinsert(p): sql = "insert into wordcount(word,count) v...原创 2019-01-25 11:54:45 · 532 阅读 · 0 评论 -
spark的转换和行动
1. map:是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 2. filter: 是对RDD中的每个元素都执行一个指定的函数来过滤产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 3. flatMap:与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD...原创 2019-01-28 09:44:33 · 638 阅读 · 0 评论 -
kafka 学习笔记
一 名词解释 名词 解释 Producer 消息的生成者 Consumer 消息的消费者 ConsumerGroup 消费者组,可以并行消费Topic中的partition的消息 Broker 缓存代理,Kafka集群中的一台或多台服务器统称broker. Topic Kafka处理资源的消息源(feeds of messages)的不同分类 Pa...原创 2019-01-29 09:36:43 · 170 阅读 · 0 评论