![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
27 spark入门
本专辑介绍spark的使用
张力的程序园
兰州大学毕业,10多年软件开发经验,善于系统性设计多种技术映射到问题解决空间。java出身,精通设计模式,熟悉经典算法,主要从事方向为分布式和大数据研发,对高并发、大流量设计思想有深刻理解和运用。
展开
-
16 使用逻辑斯蒂回归分类器预测句子中是否包含某字段
常用的分类器有逻辑斯蒂回归分类器和决策树分类器,本文将阐述在scala中使用逻辑斯蒂回归完成判断是否有某字段。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成spark访问hivehttps://www.jianshu.com/p/3965abe4d593为去...原创 2019-06-27 11:51:18 · 99 阅读 · 0 评论 -
15 鸢尾花(iris)数据集分析
Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。数据集内包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。据说在现实中,这三种花的基本...原创 2019-06-26 18:59:42 · 5709 阅读 · 0 评论 -
14 MLlib基本数据类型
MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要的数据类型包括:标注点(Labeled Point)、本地向量(Local Vector)、、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基于一个或多个RDD的分布式矩阵。其中,本地向量与本地矩阵作为公共接口提供简单数据模型,底层的线性代数操作由Breeze库和jblas库提供。标注点类型用来表示监...原创 2019-06-27 00:48:56 · 284 阅读 · 0 评论 -
12 整合Kafka与Spark Streaming
前面我们使用Spark Streaming去监听了端口数据,接下来我们将使用Spark Streaming作为kafka的消费者。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成spark访问Hbasehttps://www.jianshu.com/p/6f7c8...原创 2019-06-25 07:42:30 · 93 阅读 · 0 评论 -
11 sparkstreaming监控端口信息
前面我们已经了解了sparksql的使用,这一节我们将了解spark当中的流处理即spark-streaming。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,请读者根据自己实际情况设置已完成spark中的DataFrame编程https://www.jianshu.com/nb/37554943xshell...原创 2019-06-24 19:14:28 · 364 阅读 · 0 评论 -
10 spark中的DataFrame编程
前面我们了解了RDD编程,RDD优点极多,但是不包含schema信息,即列的信息,只能通过反复的迭代处理获取期待的数据,本文将阐述DataFrame的用法,所谓DataFrame就是包含schema信息的RDD。RDD【弹性分布式数据集】是spark的核心,它是只读的,基于内存的,RDD结合算子会形成一个DAG【有向无环图】,DAG可以推测和延迟执行,效率极高。本文将阐述基于RD...原创 2019-06-19 19:22:00 · 84 阅读 · 0 评论 -
09 spark中的RDD编程
RDD【弹性分布式数据集】是spark的核心,它是只读的,基于内存的,RDD结合算子会形成一个DAG【有向无环图】,DAG可以推测和延迟执行,效率极高。本文将阐述基于RDD的编程。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,请读者根据自己实际情况设置已完成spark访问mysqlhttps://www.jian...原创 2019-06-19 18:33:05 · 75 阅读 · 0 评论 -
08 使用spark访问Hbase
前面我们使用spark访问了mysql以及hive,接下来我们将使用spark访问hbase。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成spark访问mysqlhttps://www.jianshu.com/p/2b4471c03fea已完成spark访...原创 2019-06-25 07:19:08 · 255 阅读 · 0 评论 -
07 使用sparksql访问hive
前面我们熟悉了通过spark访问mysql,这一节我们将了解通过spark通过hive1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成spark访问mysqlhttps://www.jianshu.com/p/2b4471c03fea为去除权限对操作的影响,所...原创 2019-06-14 09:03:08 · 91 阅读 · 0 评论 -
05 使用spark进行词频统计【scala sbt】
我们已经了解了在spark命令行当中使用交互方式完成词频统计,本节将阐述在idea当中使用sbt环境完成scala代码,并进行词频统计。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已在linux中完成scala交互方式的词频统计https://www.jianshu...原创 2019-06-18 12:39:39 · 488 阅读 · 0 评论 -
04 使用spark进行词频统计【java maven】
我们已经了解了在spark命令行当中使用交互方式完成词频统计,本节将阐述在idea当中使用maven环境完成java代码,并进行词频统计。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已在linux中完成scala交互方式的词频统计https://www.jiansh...原创 2019-06-18 12:41:17 · 294 阅读 · 0 评论 -
03 使用spark进行词频统计【python】
本节将展示如何在spark中通过python进行词频统计。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置已完成scala方式的词频统计https://www.jianshu.com/p/92257e814e59已经有待统计的文件word上传到HDFS,名字为/wo...原创 2019-06-06 12:12:31 · 2245 阅读 · 0 评论 -
01 在CentOS7当中安装spark
spark是新一代的大数据组件,包括sparkcore, sparksql,sparkstreaming,mllib,graphx等,在实际生产中作用极大,与HDFS, Hbase, hive等都可以交互。本文将阐述如何在CentOS7中安装spark。1 系统、软件以及前提约束CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji...原创 2019-06-06 11:12:50 · 167 阅读 · 0 评论