- 博客(22)
- 资源 (3)
- 收藏
- 关注
转载 回归评价指标MSE、RMSE、MAE、R-Squared
原文地址前言分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared。下面一一介绍均方误差(MSE)MSE (Mean Squared Error)叫做均方误差。看公式 这里的y是测试集上的。用 真实值-预测值 然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟,这不就是线性回归的损失函数嘛!!! 对,在线性回归的时候我们的目的就是让...
2019-01-25 09:59:21 1935
原创 Spark Maven项目打包后找不到主类
项目配置:IDEA + Maven + spark2.2 + scala 2.11.4 + java8问题:使用IDEA,Maven创建java和scala项目,写完代码本地运行没有问题,打包后,java程序没有问题,scala程序总是找不到主类java.lang.ClassNotFoundException: cn.spark.sql.SparkSQLDemo at java...
2019-01-24 12:50:52 5657 1
原创 Spark 作业资源调度
北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。首先,回想一下,每个spark作业都会运行自己独立的一批executor进程,此时集群管理器会为我们提供同时调度多个作业的功能。第二,在每个spark作业内部,多个job也可以并行执行,比如说spark-shell就是一个spark application,但是随着我们输入scala rdd acti...
2019-01-23 10:58:29 691 1
原创 Spark 作业监控
北风网spark学习笔记对于Spark作业的监控,Spark给我们提供了很多种方式:Spark Web UI,Spark History Web UI,RESTFUL API以及Metrics。SparkWebUI以及监控实验每提交一个Spark作业,并且启动SparkContext之后,都会启动一个对应的Spark Web UI服务。默认情况下Spark Web UI的访问地址是driv...
2019-01-23 10:54:30 1361
原创 spark 基于ZooKeeper实现HA高可用性以及自动主备切换
北风网spark学习笔记默认情况下,standalone cluster manager对于worker节点的失败是具有容错性的(迄今为止,Spark自身而言对于丢失部分计算工作是有容错性的,它会将丢失的计算工作迁移到其他worker节点上执行)。然而,调度器是依托于master进程来做出调度决策的,这就会造成单点故障:如果master挂掉了,就没法提交新的应用程序了。为了解决这个问题,spar...
2019-01-23 10:52:55 2074
转载 Jupyter Notebook 设置背景主题、字体大小以及输出部分显示不全的问题
原文地址        从开始阅读CNN的经典论文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet),实验室的师哥就建议看完论文后,用Tensorflow或者Keras复现一下论文的代码,就这样开始了入坑深度学习。复现论文的代码就需要使用深度学习的框架,我用的是Tensorflow...
2019-01-21 18:49:05 1620
转载 斯坦福机器学习课程汇总
以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识,用浅显易懂的方式,深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域,或者对这一领域有浓厚的兴趣想要深入了解,那么你会发现很多机器学习入门课程推荐的资料中,都有吴恩达老师的这一系列课程。甚至在大多数资料中,都把这门课放在了首选的位置上。因此,我把吴恩达老师的课程...
2019-01-21 16:06:51 569
原创 面试题33: 二叉搜索树的后续遍历
/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题33: 二叉搜索树的后续遍历* 题目:输入一个整数数组,判断该数组是不是某二叉搜索树的后序遍历结果。** 分析: 对于二叉搜索树的后续...
2019-01-21 15:50:30 259
原创 面试题34: 二叉树中和为某一值的路径
/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题34: 二叉树中和为某一值的路径* 题目:输入一颗二叉树和一个整数,打印出二叉树中节点值得和为输入整数得所有路径。** 分析: 对于二...
2019-01-21 15:50:06 253
原创 Spark Streaming性能调优
北风网spark学习笔记数据接收并行度调优通过网络接收数据时(比如Kafka、Flume),会将数据反序列化,并存储在Spark的内存中。如果数据接收称为系统的瓶颈,那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,该Receiver接收一个数据流。因此可以通过创建多个输入DStream,并且配置它们接收数据源不同的分区...
2019-01-21 15:46:09 293
原创 Spark Streaming容错机制以及事务语义详解
北风网spark学习笔记容错机制的背景要理解Spark Streaming提供的容错机制,先回忆一下Spark RDD的基础容错语义:RDD,Ressilient Distributed Dataset,是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系,(val lines = sc.textFile(hdfs file); val word...
2019-01-21 15:44:10 341
原创 Spark Streaming 部署、升级和监控应用程序
部署应用程序有一个集群资源管理器,比如standalone模式下的Spark集群,Yarn模式下的Yarn集群等。打包应用程序为一个jar包,课程中一直都有演示。为executor配置充足的内存,因为Receiver接受到的数据,是要存储在Executor的内存中的,所以Executor必须配置足够的内存来保存接受到的数据。要注意的是,如果你要执行窗口长度为10分钟的窗口操作,那么Exec...
2019-01-21 15:39:24 659
原创 SparkStreaming缓存、持久化机制、Checkpoint机制
缓存、持久化机制与RDD类似,Spark Streaming也可以让开发人员手动控制,将数据流中的数据持久化到内存中。对DStream调用persist()方法,就可以让Spark Streaming自动将该数据流中的所有产生的RDD,都持久化到内存中。如果要对一个DStream多次执行操作,那么,对DStream持久化是非常有用的。因为多次操作,可以共享使用内存中的一份缓存数据。对于基于窗...
2019-01-21 15:36:12 468
原创 Tensorflow-gpu环境搭建
第一步: 安装anaconda第二步:创建虚拟环境conda install nb_condaconda create -n tensorflow python=3.6 ipykernelipykernel的目的是让jupyter notebook可以使用虚拟环境第三步:进入虚拟环境,安装tensorflowactivate tensorflowconda install --...
2019-01-20 22:24:36 182
原创 SparkConf、spark-submit以及spark-defaults.conf
北风网spark学习笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性,并传递给我们的spark应用程序加载默认的配置属性,一大好处就在于,我们不需要在spark-submit脚本中设置所有的属性比如说,默认属性中有一个spark.master属性...
2019-01-14 16:05:47 8338
原创 standalone多作业资源调度
北风网spark学习笔记standalone多作业资源调度standalone集群对于同时提交上来的多个作业,仅仅支持FIFO调度策略,也就是先入先出默认情况下,集群对多个作业同时执行的支持是不好的,没有办法同时执行多个作业,因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源,此时相当于就是只能支持作业串行起来,一个一个运行了如果希望能够支持多作业同时运行,那么就需要调整一...
2019-01-10 15:54:40 236
原创 Spark作业三种模式提交
北风网spark学习笔记Spark作业三种模式提交local模式提交spark作业spark作业运行集群,有两种部署方式,一种是Spark Standalone集群,还有一种是YARN集群+Spark客户端提交spark作业的两种主要方式,就是Spark Standalone和YARN,这两种方式,分别还分为两种模式,分别是client mode和cluster mode在体验stan...
2019-01-10 15:42:45 1799
原创 standalone部署细节以及相关参数
北风网spark学习笔记standalone部署细节以及相关参数配置集群中的worker节点如果想将某台机器部署成standalone集群架构中的worker节点(会运行worker daemon进程)那么你就必须在那台机器上部署spark安装包配置conf/slaves文件在conf/salves文件中,哪些机器是作为worker节点的,可以配置你要在哪些机器上启动worker进...
2019-01-10 11:18:25 1444
原创 Spark Standalone集群架构
Spark Standalone集群架构SparkStandalone集群集群管理器,cluster manager:Master进程,工作节点:Worker进程搭建了一套Hadoop集群(HDFS+YARN)HDFS:NameNode、DataNode、SecondaryNameNodeYARN:ResourceManager、NodeManagerSpark集群(Spark St...
2019-01-10 11:13:43 382
原创 Spark术语
Spark术语术语介绍Applicationspark应用程序,说白了,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程Application Jar这个就是把写好的spark工程,打包成一个jar包,其中包括了所有的第三方jar依赖包,比如java中,就用maven...
2019-01-10 11:13:01 268
原创 Spark集群概览
Spark集群概览Spark集群架构spark程序每次提交就是一个作业,提交到多个executor进程上去,多个进程并行运行作业第一步一段程序,spark代码,里面肯定是有main方法的,比如说是java/scala,运行这个代码,代码一旦跑起来,一定是运行在一个进程里面的进程会去执行main方法中的代码进程,程序跑起来的进程,通常来说就是jvm进程,java虚拟机进程,就是我们...
2019-01-10 11:12:28 207
原创 Python高级语法
Python高级语法内置类型list:动态的,大小可改变tuple:不可变,一旦创建不能修改dict:键值映射set :可变的、无序的、有限的集合,元素唯一高级语法迭代器迭代器是一个实现了迭代器协议的容器对象,主要基于以下两个方法__next__: 返回容器的下一个元素__iter__: 返回迭代器本身class CountDown: def __init_...
2019-01-05 14:32:20 267
《深度学习入门:基于Python的理论与实现》超清中文+源代码
2018-12-11
HANDSON_DATA_SCIENCE_AND_PYTHON_MACHINE_LEARNING
2018-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人