机器学习大数据篇
ml_nick
没有最高,只有更高
展开
-
【机器学习大数据篇】Spark基本框架
原创 2019-02-17 01:37:39 · 240 阅读 · 0 评论 -
【机器学习大数据篇】Windows和PC机上搭建Spark+Python开发环境的详细步骤
0 准备工作 查看操作系统的版本信息:计算机>>右键“属性”>>查看版本信息,如Windows10专业版64位。 1 安装Anaconda 1.1 下载 注意选择与操作系统匹配的版本,截止写本教程时,官方版本为Anaconda5.0.1,内部封装的为Python3.6,也可根据需要下载封装其他版本Python的An...转载 2019-02-16 14:06:18 · 676 阅读 · 0 评论 -
【机器学习大数据篇】Spark集群三种部署模式的区别
Spark最主要资源管理方式按排名为Hadoop Yarn, Apache Standalone 和Mesos。在单机使用时,Spark还可以采用最基本的local模式。 目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,...转载 2019-02-24 21:00:51 · 324 阅读 · 0 评论 -
【机器学习大数据篇】对企业架构,Spark,HIVE,RDD,Spark sql深度透彻了解
传统的方式用的是spark+RDD 新的方式是用DataFrame做新的案例,python与spark相结合,做分析范式已经普及开来了 架构详解: 最底层的是数据的导入,导入之前是各种形态的,一类是orcale,mysql...,另一类是csv,txt... SQOOP是导入结构化数据的,FLUME,KAFKA是导入流式数据的 数据导入后,紧接着就是存储,目前存储有三个模块,HD...原创 2019-02-28 19:01:18 · 477 阅读 · 0 评论 -
【机器学习大数据篇】spark2.x+python精华实战课程
资料科学:从大数据中汲取知识,是用有效率以及智能的方式处理巨量资料的科学 为什么需要资料科学? 1.企业意识到资料的重要性 2.资料收集越来越多 3.数量越来越大 和过去相比分析的差异:效率高,更加智能 大数据的定义: 结构化数据:关系型数据库表示和存储 机器学习 半结构化数据:常见的有XML和JSON 非结构化数据:各种文档、图片、视频/音频等都属于非结构...原创 2019-02-28 08:54:49 · 911 阅读 · 1 评论 -
WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure
1:遇到这个问题是在启动bin/spark-shell以后,然后呢,执行spark实现wordcount的例子的时候出现错误了,如: scala> sc.textFile("hdfs://slaver1:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect 执行上面操作之前我是这样启动我...转载 2019-06-06 16:37:01 · 1321 阅读 · 1 评论