2019年01月_htfenght

03月 01月

转载回归评价指标MSE、RMSE、MAE、R-Squared

原文地址前言分类问题的评价指标是准确率，那么回归算法的评价指标就是MSE，RMSE，MAE、R-Squared。下面一一介绍均方误差（MSE）MSE （Mean Squared Error）叫做均方误差。看公式这里的y是测试集上的。用真实值-预测值然后平方之后求和平均。猛着看一下这个公式是不是觉得眼熟，这不就是线性回归的损失函数嘛！！！对，在线性回归的时候我们的目的就是让...

2019-01-25 09:59:21 1935

原创 Spark Maven项目打包后找不到主类

项目配置：IDEA + Maven + spark2.2 + scala 2.11.4 + java8问题：使用IDEA，Maven创建java和scala项目，写完代码本地运行没有问题，打包后，java程序没有问题，scala程序总是找不到主类java.lang.ClassNotFoundException: cn.spark.sql.SparkSQLDemo at java...

2019-01-24 12:50:52 5657 1

北风网spark学习笔记静态资源分配原理spark提供了许多功能用来在集群中同时调度多个作业。首先，回想一下，每个spark作业都会运行自己独立的一批executor进程，此时集群管理器会为我们提供同时调度多个作业的功能。第二，在每个spark作业内部，多个job也可以并行执行，比如说spark-shell就是一个spark application，但是随着我们输入scala rdd acti...

2019-01-23 10:58:29 691 1

原创 Spark 作业监控

北风网spark学习笔记对于Spark作业的监控，Spark给我们提供了很多种方式：Spark Web UI，Spark History Web UI，RESTFUL API以及Metrics。SparkWebUI以及监控实验每提交一个Spark作业，并且启动SparkContext之后，都会启动一个对应的Spark Web UI服务。默认情况下Spark Web UI的访问地址是driv...

2019-01-23 10:54:30 1361

原创 spark 基于ZooKeeper实现HA高可用性以及自动主备切换

北风网spark学习笔记默认情况下，standalone cluster manager对于worker节点的失败是具有容错性的（迄今为止，Spark自身而言对于丢失部分计算工作是有容错性的，它会将丢失的计算工作迁移到其他worker节点上执行）。然而，调度器是依托于master进程来做出调度决策的，这就会造成单点故障：如果master挂掉了，就没法提交新的应用程序了。为了解决这个问题，spar...

2019-01-23 10:52:55 2074

转载 Jupyter Notebook 设置背景主题、字体大小以及输出部分显示不全的问题

原文地址 &nbsp; &nbsp; &nbsp; &nbsp;从开始阅读CNN的经典论文(LeNet-5、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet)，实验室的师哥就建议看完论文后，用Tensorflow或者Keras复现一下论文的代码，就这样开始了入坑深度学习。复现论文的代码就需要使用深度学习的框架，我用的是Tensorflow...

2019-01-21 18:49:05 1620

转载斯坦福机器学习课程汇总

以下内容来自斯坦福机器学习课程汇总前言这门课程将整个机器学习领域的基础知识，用浅显易懂的方式，深入浅出的进行了介绍。使得一个拥有高中数学知识的学生也能听得明白。如果你想要涉足机器学习、人工智能领域，或者对这一领域有浓厚的兴趣想要深入了解，那么你会发现很多机器学习入门课程推荐的资料中，都有吴恩达老师的这一系列课程。甚至在大多数资料中，都把这门课放在了首选的位置上。因此，我把吴恩达老师的课程...

2019-01-21 16:06:51 569

原创面试题33: 二叉搜索树的后续遍历

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题33: 二叉搜索树的后续遍历* 题目：输入一个整数数组，判断该数组是不是某二叉搜索树的后序遍历结果。** 分析：对于二叉搜索树的后续...

2019-01-21 15:50:30 259

原创面试题34: 二叉树中和为某一值的路径

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.08** 面试题34: 二叉树中和为某一值的路径* 题目：输入一颗二叉树和一个整数，打印出二叉树中节点值得和为输入整数得所有路径。** 分析：对于二...

2019-01-21 15:50:06 253

原创 Spark Streaming性能调优

北风网spark学习笔记数据接收并行度调优通过网络接收数据时（比如Kafka、Flume），会将数据反序列化，并存储在Spark的内存中。如果数据接收称为系统的瓶颈，那么可以考虑并行化数据接收。每一个输入DStream都会在某个Worker的Executor上启动一个Receiver，该Receiver接收一个数据流。因此可以通过创建多个输入DStream，并且配置它们接收数据源不同的分区...

2019-01-21 15:46:09 293

原创 Spark Streaming容错机制以及事务语义详解

北风网spark学习笔记容错机制的背景要理解Spark Streaming提供的容错机制，先回忆一下Spark RDD的基础容错语义：RDD，Ressilient Distributed Dataset，是不可变的、确定的、可重新计算的、分布式的数据集。每个RDD都会记住确定好的计算操作的血缘关系，（val lines = sc.textFile(hdfs file); val word...

2019-01-21 15:44:10 341

原创 Spark Streaming 部署、升级和监控应用程序

部署应用程序有一个集群资源管理器，比如standalone模式下的Spark集群，Yarn模式下的Yarn集群等。打包应用程序为一个jar包，课程中一直都有演示。为executor配置充足的内存，因为Receiver接受到的数据，是要存储在Executor的内存中的，所以Executor必须配置足够的内存来保存接受到的数据。要注意的是，如果你要执行窗口长度为10分钟的窗口操作，那么Exec...

2019-01-21 15:39:24 659

原创 SparkStreaming缓存、持久化机制、Checkpoint机制

缓存、持久化机制与RDD类似，Spark Streaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。对DStream调用persist()方法，就可以让Spark Streaming自动将该数据流中的所有产生的RDD，都持久化到内存中。如果要对一个DStream多次执行操作，那么，对DStream持久化是非常有用的。因为多次操作，可以共享使用内存中的一份缓存数据。对于基于窗...

2019-01-21 15:36:12 468

原创 Tensorflow-gpu环境搭建

第一步：安装anaconda第二步：创建虚拟环境conda install nb_condaconda create -n tensorflow python=3.6 ipykernelipykernel的目的是让jupyter notebook可以使用虚拟环境第三步：进入虚拟环境，安装tensorflowactivate tensorflowconda install --...

2019-01-20 22:24:36 182

原创 SparkConf、spark-submit以及spark-defaults.conf

北风网spark学习笔记SparkConf、spark-submit以及spark-defaults.confspark-submit脚本会自动加载conf/spark-defaults.conf文件中的配置属性，并传递给我们的spark应用程序加载默认的配置属性，一大好处就在于，我们不需要在spark-submit脚本中设置所有的属性比如说，默认属性中有一个spark.master属性...

2019-01-14 16:05:47 8338

原创 standalone多作业资源调度

北风网spark学习笔记standalone多作业资源调度standalone集群对于同时提交上来的多个作业，仅仅支持FIFO调度策略，也就是先入先出默认情况下，集群对多个作业同时执行的支持是不好的，没有办法同时执行多个作业，因为先提交上来的每一个作业都会尝试使用集群中所有可用的cpu资源，此时相当于就是只能支持作业串行起来，一个一个运行了如果希望能够支持多作业同时运行，那么就需要调整一...

2019-01-10 15:54:40 236

原创 Spark作业三种模式提交

北风网spark学习笔记Spark作业三种模式提交local模式提交spark作业spark作业运行集群，有两种部署方式，一种是Spark Standalone集群，还有一种是YARN集群+Spark客户端提交spark作业的两种主要方式，就是Spark Standalone和YARN，这两种方式，分别还分为两种模式，分别是client mode和cluster mode在体验stan...

2019-01-10 15:42:45 1799

原创 standalone部署细节以及相关参数

北风网spark学习笔记standalone部署细节以及相关参数配置集群中的worker节点如果想将某台机器部署成standalone集群架构中的worker节点（会运行worker daemon进程）那么你就必须在那台机器上部署spark安装包配置conf/slaves文件在conf/salves文件中，哪些机器是作为worker节点的，可以配置你要在哪些机器上启动worker进...

2019-01-10 11:18:25 1444

原创 Spark Standalone集群架构

Spark Standalone集群架构SparkStandalone集群集群管理器，cluster manager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark St...

2019-01-10 11:13:43 382

原创 Spark术语

Spark术语术语介绍Applicationspark应用程序，说白了，就是用户基于spark api开发的程序，一定是通过一个有main方法的类执行的，比如java开发spark，就是在eclipse中，建立的一个工程Application Jar这个就是把写好的spark工程，打包成一个jar包，其中包括了所有的第三方jar依赖包，比如java中，就用maven...

2019-01-10 11:13:01 268

原创 Spark集群概览

Spark集群概览Spark集群架构spark程序每次提交就是一个作业，提交到多个executor进程上去，多个进程并行运行作业第一步一段程序，spark代码，里面肯定是有main方法的，比如说是java/scala，运行这个代码，代码一旦跑起来，一定是运行在一个进程里面的进程会去执行main方法中的代码进程，程序跑起来的进程，通常来说就是jvm进程，java虚拟机进程，就是我们...

2019-01-10 11:12:28 207

原创 Python高级语法

Python高级语法内置类型list：动态的，大小可改变tuple：不可变，一旦创建不能修改dict：键值映射set ：可变的、无序的、有限的集合，元素唯一高级语法迭代器迭代器是一个实现了迭代器协议的容器对象，主要基于以下两个方法__next__: 返回容器的下一个元素__iter__: 返回迭代器本身class CountDown: def __init_...

2019-01-05 14:32:20 267

WPS二次开发接口.rar

WPS二次开发接口（三个版本），提供了WPS的API，可使用python、java、C语言进行二次开发

2019-10-30

《深度学习入门：基于Python的理论与实现》超清中文+源代码

本书最大的特点是“剖解”了深度学习的底层技术。正如美国物理学家理查德·费曼（Richard Phillips Feynman）所说： “What I cannot create, I do not understand.”只有创造一个东西，才算真正弄懂了一个问题。本书就是教你如何创建深度学习模型的一本书。并且，本书不使用任何现有的深度学习框架，尽可能仅使用最基本的数学知识和Python 库，从零讲解深度学习核心问题的数学原理，从零创建一个经典的深度学习网络。

2018-12-11

HANDSON_DATA_SCIENCE_AND_PYTHON_MACHINE_LEARNING

My name is Frank Kane. I spent nine years at amazon.com and imdb.com, wrangling millions of customer ratings and customer transactions to produce things such as personalized recommendations for movies and products and "people who bought this also bought." I tell you, I wish we had Apache Spark back then, when I spent years trying to solve these problems there. I hold 17 issued patents in the fields of distributed computing, data mining, and machine learning. In 2012, I left to start my own successful company, Sundog Software which focuses on virtual reality environment technology, and teaching others about big data analysis.

2018-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

htfenght的博客