- 博客(20)
- 收藏
- 关注
转载 统计学习方法笔记(一)-k近邻算法原理及python实现
输入:训练集$$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$$其中,$x_i\in \mathcal {X} \subseteq \mathcal{R^n}$为实例的特征向量,$y_i \in \mathcal {Y}=\{c_1,c_2,...,c_K\}$为实例的类别,$i=1,2,...,N$;实例特征向量$x$;输出:实例$x$所属的类$y...
2019-08-28 19:44:00 134
转载 TensorFlow、Numpy中的axis的理解
TensorFlow中有很多函数涉及到axis,比如tf.reduce_mean(),其函数原型如下:1 def reduce_mean(input_tensor,2 axis=None,3 keepdims=None,4 name=None,5 ...
2019-03-31 21:29:00 147
转载 机器学习实战-之SVM核函数与案例
在现实任务中,原始样本空间中可能不存在这样可以将样本正确分为两类的超平面,但是我们知道如果原始空间的维数是有限的,也就是说属性数是有限的,则一定存在一个高维特征空间能够将样本划分。事实上,在做任务中,我们并不知道什么样的核函数是合适的。但是核函数的选择却对支持向量机的性能有着至关重要的作用。如果核函数选择不合适,则意味着样本映射到一个不合适的特征空间,这样就有可能导致性能不佳。故...
2017-12-02 17:33:00 283
转载 机器学习实战之SVM原理与案例
定义:支持向量机SVM(Support vector machine)是一种二值分类器方法,其基本是思想是:找到一个能够将两类分开的线性可分的直线(或者超平面)。实际上有许多条直线(或超平面)可以将两类目标分开来,我们要找的其实是这些直线(或超平面)中分割两类目标时,有最大距离的直线(或超平面)。我们称这样的直线或超平面为最佳线性分类器。如下图:源码如下:#引入库i...
2017-12-02 17:23:00 310
转载 JStorm与Storm源码分析(七)--BasicBoltExecutor与装饰模式
在Storm中IBasicBolt的主要作用是为用户提供一种更为简单的Bolt编写方式,更为简单体现在Storm框架本身帮你处理了所发出消息的Ack、Fail和Anchor操作,而这部分操作是由执行器BasicBoltExecutor 实现的。下面我们看一下BasicBoltExecutor的源码:/** * BasicBoltExecutor实现了IRichBolt接口...
2017-08-02 08:24:00 96
转载 JStorm与Storm源码分析(六)--收集器 IOutputCollector 、OutputCollector
在Storm中,多个地方使用了IOutputCollector收集器接口,收集器OutputCollector的接口就是IOutputCollector。所以有必要对接口IOutputCollector进行解读和分析.IOutputCollector的源码如下:/** * @ClassName: IOutputCollector接口扩展了IErrorReporter, ...
2017-08-01 08:20:00 136
转载 JStorm与Storm源码分析(五)--SpoutOutputCollector与代理模式
本文主要是解析SpoutOutputCollector源码,顺便分析该类中所涉及的设计模式–代理模式。首先介绍一下Spout输出收集器接口–ISpoutOutputCollector,该接口主要声明了以下3个抽象方法用来约束ISpoutOutputCollector的实现类。接口定义与方法说明如下:/** * ISpoutOutputCollector:Spout输出收集器...
2017-07-31 08:46:00 116
转载 JStorm与Storm源码分析(四)--均衡调度器,EvenScheduler
EvenScheduler同DefaultScheduler一样,同样实现了IScheduler接口,由下面代码可以看出:(ns backtype.storm.scheduler.EvenScheduler (:use [backtype.storm util log config]) (:require [clojure.set :as set]) (:im...
2017-07-29 08:42:00 114
转载 JStorm与Storm源码分析(三)--Scheduler,调度器
Scheduler作为Storm的调度器,负责为Topology分配可用资源。Storm提供了IScheduler接口,用户可以通过实现该接口来自定义Scheduler。其定义如下:public interface IScheduler { //接收当前Nimbus的Storm配置作为参数,进行一些初始化工作 void prepare(Map conf);...
2017-07-28 16:30:00 91
转载 JStorm与Storm源码分析(二)--任务分配,assignment
mk-assignments主要功能就是产生Executor与节点+端口的对应关系,将Executor分配到某个节点的某个端口上,以及进行相应的调度处理。代码注释如下: 1 ;;参数nimbus为nimbus-data对象,:scratch-topology-id为需要重新调度的Topology的id 2 (defnk mk-assignments [nimbus :scra...
2017-07-26 14:38:00 118
转载 JStorm与Storm源码分析(一)--nimbus-data
Nimbus里定义了一些共享数据结构,比如nimbus-data.nimbus-data结构里定义了很多公用的数据,请看下面代码: 1 (defn nimbus-data [conf inimbus] 2 (let [forced-scheduler (.getForcedScheduler inimbus)] 3 {:conf conf 4 ...
2017-07-25 21:49:00 95
转载 机器学习(4)Hoeffding Inequality--界定概率边界
问题假设空间的样本复杂度(sample complexity):随着问题规模的增长导致所需训练样本的增长称为sample complexity。实际情况中,最有可能限制学习器成功的因素是训练数据的有限性。在使用学习器的过程中,我们希望得到与训练数据拟合程度高的假设(hypothesis)。(在前面文章中提到,这样的假设我们称之为g)。这就要求训练错误率为0...
2016-12-10 17:15:00 230
转载 机器学习(3)-Tensorflow安装与测试
安装、# Ubuntu/Linux 64-bit$ sudo apt-get install python-pip python-dev# Ubuntu/Linux 64-bit, CPU only, Python 2.7$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/ten...
2016-12-10 17:03:00 71
转载 ML(2)--感知机
案例银行办信用卡--获得感知机我们到银行办信用卡时,银行并不是直接就给你办卡的,而是会根据你的一些个人信息、消费信息、个人信誉等指标综合考虑后,才会决定是否给你办卡(不像现在银行办信用卡有点随意)。银行要考虑的指标比如age,salary,year in job,current debt等我们称为特征,假设银行要考虑的特征有n个:感知机感知机(有些地方叫...
2016-11-27 11:39:00 134
转载 ML(1)--概念理解
机器是如何模拟人来学习的?人: observations===>learning===>skill人从出生开始经过大量的观察(也可能经过身边的的指导)进行学习然后得到相应的技能(比如小孩认车)机器:data====>learning====>skill机器从大量的数据里学习获得相应的技能对于机器来说skill:improve ...
2016-11-27 11:36:00 108
转载 Storm/JStorm之TopologyBuilder源码阅读
在Strom/JStorm中有一个类是特别重要的,主要用来构建Topology的,这个类就是TopologyBuilder.咱先看一下简单的例子:public static void main(String[] args) throws AlreadyAliveException, InvalidTopologyException { ...
2016-10-16 16:28:00 135
转载 控制反转(IoC)-解析与实现
控制反转(Inversion of Control)缩写:IoC是面向对象编程中框架级别里的一个重要的概念,可以说Spring框架的核心就是基于IoC原理的。这个概念到底是什么呢?这么讲吧,一个系统的运作肯定不是简单的几个类就可以实现的,它往往需要多个类的合作来实现业务逻辑。这就使得每个对象都需要与其合作的对象具有相互的关系(依赖关系)。在早前编程中所需要的依赖对象...
2016-10-16 16:14:00 150
转载 组建团队--共同愿景
从大一跟着Vsir,宝哥招学生培训英语开时,到后面在其他公司实习,再到后来自己组建团队,可以说前前后后在不同的团队呆过,也组建了几个自己的团队。越来越感受到一个事实:不管是个人还是团队都需要一个愿景,否则在前进的路上会越走越迷茫。不管是男女朋友关系的运营还是一个团队的管理都需要愿景。 那什么是共同愿景呢? 按照彼得.圣洁在《第五项修炼》中所说的...
2016-09-03 09:11:00 210
转载 一切都是问题,一切都着落在自身
生活中经常遇到同学问这类问题: 这种方法行不行?你觉得这种方法可以吗? 特别是问一些其实是可以通过自己实际操作(或搜索)就可得到答案的问题,你会觉得很郁闷。当然细想下来自己曾经也经常犯这类毛病,问一些明明可以通过实际操作或搜索得到答案的问题。 可是为什么会犯这类毛病呢? 1.没有意识自己去尝试 其实有的时候,...
2016-08-20 17:24:00 136
转载 Storm源码阅读之SpoutOutputCollector
不得不说storm是一个特别棒的实时计算框架。为了对后文理解的方便,先说几个storm中的术语:Topology:拓扑图或者拓扑结构。在storm中它通过消息分组的分式连接Spout和Bolt节点定义了运算处理的拓扑结构。如下图:那什么是Spout呢?在计算任务需要的数据其实就是由Spout提供的,所以它可以说是Storm中的消息源,一般是从外部数据源(日志文件、数据库、...
2016-08-19 09:18:00 211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人