chaowu1993-CSDN博客

原创 LSTM理解

LSTM理解RNN结构：激活函数 Tanh 作用在于帮助调节流经网络的值，使得数值始终限制在 -1 和 1 之间。LSTMLSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。具体来说，RNN是重复单一的神经网络层，LSTM中的重复模块则包含四个交互的层，三个Sigmoid 和一个tanh层，并以一种非常特殊的方式进行交互。上图中，σ表示的Sigmoid 激活函数与 tanh...

2019-09-17 23:10:20 3333 1

原创 K8S集群安装

禁用防火墙并不是安全的做法，如果在真实的环境中请查看k8s文档开放指定的端口。我这里简单粗暴直接禁用防火墙：ufw disable禁用Selinuxapt install selinux-utilssetenforce 0swapoff -a #暂时关闭vim /etc/fstab,注释掉swap那一行，#永久禁用swap分区apt-get update &&a...

2019-03-17 16:47:17 304

原创 222

apt-get update && apt-get install -y apt-transport-https curlcat <<EOF >/etc/apt/sources.list.d/kubernetes.list> deb http://mirrors.ustc.edu.cn/kubernetes/apt kubernetes-xenial ...

2019-03-17 09:59:58 5800

原创 k8s安装

关闭防火墙systemctl stop firewalldsystemctl disable firewalld禁用Selinuxapt install selinux-utilssetenforce 0禁用swapswapoff -a同时把/etc/fstab包含swap那行记录删掉。用阿里云安装：sudo apt-get update &amp;&amp; apt-g...

2019-03-15 16:08:27 169

原创 ubuntu忘记密码解决方法

有时候ubuntu虚拟机或者系统很久没用，会忘记密码,真是叫人头疼!!!总结了网上两种解决方法，大体类似。（说好的linux系统很安全就这么改了密码？？）最直接粗暴的方式，重装系统！！！！不重装选择如下：在开机的时候一直按住shift或者esc按键。（本人电脑使用esc可以）进去界面选择高级选项：然后选择recovery mode:接下来就是两种方法的不同之处了。方法一（如果你...

2019-03-10 01:47:20 1468 6

原创为什么交叉熵可以做损失函数?

交叉熵:一句介绍:相对熵(KL散度)是衡量两个概率分布之间的距离,等于交叉熵加上个熵,在一定条件下熵值是固定的数值,所以交叉熵可以看做等于相对熵.说交叉熵之前先介绍相对熵，相对熵又称为KL散度（Kullback-Leibler Divergence），用来衡量两个分布之间的距离，记为这里H§是p的熵。假设有两个分布p和q，它们在给定样本集上的交叉熵定义为：从这里可以看出，交叉熵和相对...

2019-01-12 22:00:03 1581 1

原创 kaggle api下载数据集

1.windows下打开终端（win+R输入cmd）安装kaggle.(pip install kaggle)2.在kaggle官网找到一个比赛。例如CTR的kaggle比赛。接受Rules，根据提示进行一些身份认证的操作。（不然下载的时候会403 401之类的问题）3.点击图像选择My Account,在API一栏选择Create New API Token.4.点击后会在电脑的自...

2019-01-05 23:27:35 6339 4

原创链表中环的入口结点[剑指offer]

题目描述给一个链表，若其中包含环，请找出该链表的环的入口结点，否则，输出null。分析:1.设订两个指针,pFast和pSlow,pFast每次走两个结点,pSlow每次一个结点2.如果有环,pFast和pSlow相遇一定是在环内3.相遇以后,pSlow不动,pFast回到头结点.4.pFast和pSlow一起走,每次都走一个结点5.当pFast和pSlow再次相遇的时候就是入口....

2018-12-30 17:29:05 128

原创 [机器学习]朴素贝叶斯原理及python源码

朴素贝叶斯的思想思想很简单，就是根据某些个先验概率计算Y变量属于某个类别的后验概率，请看下图细细道来：假如，上表中的信息反映的是某P2P企业判断其客户是否会流失(churn)，而影响到该变量的因素包含年龄、性别、收入、教育水平、消费频次、支出。那根据这样一个信息，我该如何理解朴素贝叶斯的思想呢？再来看一下朴素贝叶斯公式：从公式中可知，如果要计算X条件下Y发生的概率,只需要计算出后面等式的...

2018-12-16 20:02:20 1046

原创 [Python] super详解

约定在开始之前我们来约定一下本文所使用的 Python 版本。默认用的是 Python 3，也就是说：本文所定义的类都是新式类。如果你用到是 Python 2 的话，记得继承 object:# 默认， Python 3class A: pass# Python 2class A(object): passPython 3 和 Python 2 的另一个区别是: Py...

2018-12-04 23:31:24 365

原创 [机器学习]GBDT源码(python)

GBDT/Adaboost/Xgboost详解可参考前面博文:详解或者参考李航的<统计学习方法>代码颗参考知乎:知乎接下来附上代码片段(主要用于理解算法,没有实现运行):其中super的继承讲解颗参考之前一篇文章.# -*- coding: utf-8 -*-from __future__ import division, print_functionimport nu...

2018-12-04 23:30:27 2213

本文主要提供源码的一些思路.具体源码可查看知乎:知乎简单来说随机森林就是生成N颗CART树,通过bootstrap的方式,有放回可重复的从原始数据集M里选出一部分数据m,总共生成N份这样的数据给N颗CART树去做训练,同时设定每棵树选用数据集中的最大的特征数,也是可重复的选取.最后的结果通过投票表决决定最终结果.代码如下(没有运行,只是看了下思路):# -*- coding: utf-8 -...

2018-12-04 14:59:29 5629 3

原创［机器学习］决策树（CART）源码（python）

详细的决策树（C4.5, ID3, CART）介绍和公式在前面的博文：决策树详解本文主要是对CART决策树的实现细节做代码展示,代码有比较详细的注解.数据集有四个特征,最后一个为label–(SepalLength, SepalWidth, PetalLength, PetalWidth, Name),总共150条样本,每个类别150条,Name为(setosa, versicolor, v...

2018-12-03 23:23:11 1637 1

原创 [机器学习]逻辑回归源码(python)

逻辑回归的具体细节和sklearn的实现可以参考前面的文章:sklearn的实现本文接下来回推倒逻辑回归的由来和梯度推导.最后会附上详细的源码细节,有比较详细的注释.def sigmoid(x): return 1 / (1 + np.exp(-x))class LogisticRegression(): """ Parameters: -...

2018-12-03 15:13:21 1715

原创【机器学习】线性回归源码（python）

线性回归法的详细介绍请参考前面的博文：线性回归推导和sklearn实现接下来的代码为线性回归实现的细节源码以及结果显示有比较详细的注释：import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_regressionfrom sklearn.model_selection i...

2018-12-02 22:10:35 1723

原创 leetcode:811. 子域名访问计数(python)

一个网站域名，如"discuss.leetcode.com"，包含了多个子域名。作为顶级域名，常用的有"com"，下一级则有"leetcode.com"，最低的一级为"discuss.leetcode.com"。当我们访问域名"discuss.leetcode.com"时，也同时访问了其父域名"leetcode.com"以及顶级域名 “com”。给定一个带访问次数和域名的组合，要求分别计

2018-12-01 18:34:05 221

原创 Python:字典(dict)操作

字典是无序的.key值是唯一的而且是不能修改的数据类型如：数字、字符串、元组.value是可以为列表，字典，整型，字符串，元组。先介绍一下字典的一些内置函数和内置方法.内置函数:cmp(dict1, dict2) #比较两个字典元素。len(dict) #计算字典元素个数，即键的总数。str(dict) #输出字典可打印的字符...

2018-11-30 20:27:42 274

原创 Python:集合(set)操作

集合1，无序,不支持索引2，把列表变成集合直接去重了3, 求列表的交集,并集,差集,对称差集4，包含与被包含（子集，父集）5, 其中frozenset是不可变集合,不能修改集合（set）是一个无序的不重复元素序列。可以使用大括号 { } 或者 set() 函数创建集合，注意：创建一个空集合必须用 set() 而不是 { }，因为 { } 是用来创建一个空字典。创建格式：par...

2018-11-30 20:16:39 200

原创 Python:列表(list)操作

序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置，或索引，第一个索引是0，第二个索引是1，依此类推。序列都可以进行的操作包括索引，切片，加，乘，检查成员。列表的数据项不需要具有相同的类型,创建一个列表，只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示:#列表操作name = ['wuchao', 11, 'none', '666']#切片(左...

2018-11-30 20:12:28 164

原创 Ubuntu系统中各文件夹的作用

/根目录包含了几乎所的文件目录。相当于中央系统。进入的最简单方法是：cd /。/boot引导程序，内核等存放的目录这个目录，包括了在引导过程中所必需的文件。在最开始的启动阶段，通过引导程序将内核加载到内存，完成内核的启动（这个时候，虚拟文件系统还不存在，加载的内核虽然是从硬盘读取的，但是没经过Linux的虚拟文件系统，这是比较底层的东西来实现的。然后内核自己创建好虚拟文件系统，并且从虚拟...

2018-10-29 02:57:11 962

原创 [深度学习]梯度迷失和梯度爆炸

那么为什么会出现梯度消失的现象呢？因为通常神经网络所用的激活函数是sigmoid函数，这个函数有个特点，就是能将负无穷到正无穷的数映射到0和1之间，并且对这个函数求导的结果是f′(x)=f(x)(1−f(x))。因此两个0到1之间的数相乘，得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘，因此当神经网络层数非常深的时候，最后一层产生的偏差就因为乘了很多的小于1的数而越来越小，最终...

2018-10-29 02:51:53 314

原创 Ubuntu16.04安装tensorflow-GPU

先安装好anaconda：在清华镜像下载想要的版本的安装包https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/解压后执行安装:bash Anaconda2-xxx-Linux-x86_64.shyessource ~/.bashrc版本对应：CUDA — cuDNN ---- — tf版本8.0 ----...

2018-10-29 02:47:06 162

原创 [机器学习]机器学习性能评价指标

回归:1.平均绝对误差MAE(Mean Absloute Error)又被称作l1范数损失(l1-norm loss):MAE(y,y^)=1nsamples∑i=1nsamples∣yi−y^i∣{\rm MAE}(y, \hat{y})=\frac{1}{n_{\rm samples}}\sum\limits_{i=1}^{n_{\rm samples}}|y_i-\hat{y}_i|M...

2018-10-29 02:31:50 1432

原创 [机器学习]决策树(ID3,C4.5,CART)

决策树决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）,一种依托于策略抉择而建立起来的树。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果.熵在介绍决策树算法之...

2018-10-29 01:20:10 1124

原创 [kaggle]泰坦尼克预测(代码解析)

用pandas加载数据:import pandas as pdimport numpy as np from pandas import Series,DataFramedata_train = pd.read_csv("train.csv")data_train.columnsdata_train.info()上面数据告诉我们，训练数据中总共有891名乘客，但是很不幸，我们...

2018-10-27 06:48:57 1070

原创 [深度学习]tensorflow中flags的使用(代码)

import tensorflow as tf#第一个是参数名称，第二个参数是默认值，第三个是参数描述tf.app.flags.DEFINE_string('str_name', 'wuhcao', 'example1')tf.app.flags.DEFINE_integer('int_name', 100, 'example2')tf.app.flags.DEFINE_boolean...

2018-10-25 17:54:46 390

原创 [深度学习]inception_v3识别任何图片(代码)

运用已经在imagenet上训练的inception_v3网络,识别各种图片:1. 在网上下载Inception_v3的训练模型,解压后会得到如下文件(需要的可以私信我):其中第一个第二个是imagenet中数字标号和英文label的文件:第三个是该模型结构的带权重的Graph.2.运用下面的代码可以生成一个tfevents文件,然后用tensorboard查看他的网络结构.imp...

2018-10-25 17:47:41 2540 1

原创 [深度学习]验证码识别(代码)

整体流程:利用captcha随机生成四位0-9数字的验证码图片.总共生成10000张,因为随机生成过程会有重复最后只有6370张,其中5870张作为训练集,500张作为测试集.把生成好的图片转换成tfrecord的格式保存.这个项目是把四个数字作为四个预测去检测,利用slim,修改Alexnet网络结构在后面接四个分类输出.在上一步中生成tfrecord的时候也是把4个label转换.读...

2018-10-25 17:29:21 19549 23

原创 [深度学习]CNN训练MNIST数据集及tensorboard详解

MNIST数据集:MNIST数据集包含6万训练图片和1万张测试图片.TensorFlow:简单CNN训练MNIST:import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets('MNIST_data', o...

2018-10-22 04:25:40 2504

原创 [机器学习]SVM中高斯核函数为什么能映射到无穷维度

核函数:高斯核函数:根据泰勒公式，e的指数函数可以写成无穷维的多项式函数，高斯函数中有e的指数函数，通过推导可以得出两个e的指数函数相乘的形式。进而高斯核函数就可以表示为无穷维空间的多项式内积了.核函数的价值在于它虽然也是将特征进行从低维到高维的转换，但核函数是事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就如上文所说的避免了直接在高维空间中的复杂计算。...

2018-10-18 17:02:23 6960

转载【机器学习】回归损失

无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数（Loss Function）是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数，让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。回归模型中的三种损失函数包括：均方误差（Mean Square Error）、平均绝对误差（Mean Absolute Error，...

2018-10-16 16:39:16 509

原创 [机器学习]逻辑回归(Logistics)及代码实现

LR:softmax:def soft_max(data, K, alpha, lamda): n = len(data[0]) - 1 #样本维度 w = np.zeros((K, n)) #当前权值,每个类都有自己的权值 wNew = np.zeros((K, n)) #临时权值:迭代过程中的权值 for times in range(1000): ...

2018-10-16 15:40:11 1145

原创 [机器学习]线性回归(Linear regression)及代码实现

MLE + 高斯分布(误差满足均值为0,方差为斯塔平方的正太分布)能推出目标函数为误差平方和. 具体推到如下图.对数似然取对数仅仅是一种求解手段而已.线性回归可以对样本非线性.只要对参数斯塔线性就行.例如Y=Θ0+Θ1X1+Θ2X2XY = \Theta _{0} + \Theta _{1}X_{1} + \Theta _{2}X_{2}XY=Θ0+Θ1X1+Θ2X2X,可以用pol...

2018-10-16 14:38:21 3564

转载 [机器学习]GBDT|XGboost|Adaboost详解及公式推导

Boosting和BaggingBoosting方法是集成学习中重要的一种方法，在集成学习方法中最主要的两种方法为Bagging和Boosting，在Bagging中，通过对训练样本重新采样的方法得到不同的训练样本集，在这些新的训练样本集上分别训练学习器，最终合并每一个学习器的结果，作为最终的学习结果，Bagging方法的具体过程如下图所示：在Bagging方法中，最重要的算法为随机森林Ra...

2018-10-15 23:45:16 1580 2

原创 [机器学习]K-means原理与源码实现

K-means算法的主要思想就是以空间中的K个点为中心进行聚类，对最靠近它的对象进行归类。通过迭代的方法不断的更新各聚类中心的值，直到最好的聚类结果。主要步骤：在N个数据中，随机挑选K个数据（也就是最后聚类微K类）做为聚类的初始中心。分别计算每个数据点到这K个中心点的欧式距离，离哪个中心点最近就分配到哪个簇中。重新计算这K个簇数据的坐标均值，将新的均值作为聚类的中心。重复2和3步骤，...

2018-10-08 22:10:44 10299 8

原创 Python数据结构：单链表实现

class Node(object): # 定义一个结点类，有信息域data,指针域next. def __init__(self, data, p = None): self.data = data self.next = p class SingelLinkList(object): def __init__(self)...

2018-10-07 22:53:28 292

原创 [深度学习] 物体检测之SSD详解

SSD结构图精华版本：SSD结构图详细版本：SSD采用了特征金字塔结构进行检测，即检测时利用了conv4_3，conv_7（FC7），conv6_2，conv7_2，conv8_2，conv9_2这些大小不同的feature maps，在多个feature maps上同时进行softmax分类和位置回归。SSD多尺度特征映射细节：SSD算法中使conv4_3,conv_7，conv...

2018-10-06 21:07:48 3409 2

原创 Python笔记

python中主要存在四种命名方式：object #公用方法_object #半保护被看作是“protect”，意思是只有类对象和子类对象自己能访问到这些变量，在模块或类外不可以使用，不能用’from module import *’导入。__object 是为了避免与子类的方法名称冲突，对于该标识符描述的方法，父类的方法不能轻易地被子类的方法覆盖，他们的名字实际上是_c...

2018-10-06 20:18:18 145

原创 [机器学习]--数据降维（PCA）

PCA 的基本实现过程:计算平均值，然后所有的样本减去对应的均值，求出方差计算整个样本的协方差矩阵计算协方差的特征值和特征矩阵将特征值按照从到到小的顺序排列，选择其中较大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。原始数据乘以组成的特征向量矩阵，得到样本点在选取的特征向量的投影。...

2018-10-06 12:01:36 771

空空如也

空空如也