自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 sklearn之svn

svm1.svm理论:https://apachecn.gitee.io/ailearning/#/docs/ml/62.Sklearn参数详解—SVM:https://cloud.tencent.com/developer/article/1146077https://www.cnblogs.com/solong1989/p/9620170.html3.svc和nusvc的区别c-svc和 nu-svc本质差不多c-svc中c的范围是1到正无穷nu-svc中nu的范围是0到

2021-02-21 23:03:40 283

原创 github操纵指南

github文件无法下载设置https://blog.csdn.net/q764424567/article/details/107375040/

2021-01-25 22:08:32 84

原创 数据结构——图

简介:一:图形简介二:图的存储结构三:图的遍历四:最小生成树五:最短路径六:拓扑排序七:关键路径计算一:图形简介图的定义:图是由“顶点 和“边“所组成的集合,通常用G=(V,E)来表示,其中V是所有顶点所组成的集合,而E代表所有边所组成的集合。图的种类有两种;一种是无向图,一种是有向图,无向图以(V1,V2)表示其边,而有向图则以<V1,V2>...

2018-08-15 17:29:05 412

原创 数据结构——线性结构

线性表、堆栈、队列这三种数据结构的不同之处栈和队列是受限制的线性表栈是先进后出(一群人走进了死胡同,然后再都出来)队列是先进先出(跟排队一个道理,先来的先受到服务)线性表是哪里都可以进行插入和删除...

2018-08-04 22:03:43 205

转载 机器学习——损失函数

机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉,梯度下降就像从山顶滑下,目的是到达山脉的最低点。没有一个损失函数可以适用于所有类型的数据。损失函数的选择取决于许多因素,包括是否有离群点,机器学习算法的选择,运行梯度...

2018-08-03 23:01:35 2935

原创 算法复杂度

什么是好的算法?除了算法的描述风格之外,具体衡量,比较算法优劣的指标主要有以下两个:(1)空间复杂度S(n)——根据算法写成的程序再执行时占用存储单元的长度。这个长度往往与输入数据的规模n有关。空间复杂度过高的算法可能导致使用的内存超限,造成程序非正常中断。(2)时间复杂度T(n)——根据算法写成的程序再执行时耗费时间的长度。这个长度往往业余输入数据的规模n有关。时间复杂度过高的低效...

2018-08-03 22:06:45 306

原创 XGBoost简单理解

GBDT与XGBOOST比较XGBoost对GBDT的改进1 . 避免过拟合目标函数之外加上了正则化项整体求最优解,用以权衡目标函数的下降和模型的复杂程度,避免过拟合。基学习为CART时,正则化项与树的叶子节点的数量T和叶子节点的值有关。 2 . 二阶的泰勒展开,精度更高不同于传统的GBDT只利用了一阶的导数信息的方式,XGBoost对损失函数做了二阶的泰勒展开,精度更高。 第t次...

2018-07-29 23:30:58 888

原创 EM算法的简述

用法:用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计本质:通过不断求解下界的极大化逼近求解对数似然函数极大化的算法。 上图中7.36式解释:①下界的公式;②若参数θ已知,则根据训练数据推断出最优应变量Z的值(E步);反之,若Z的值已知,则可方便地对参数θ做极大似然估计(M值)好文推荐:https://blog.csdn.net/zhihua_oba/article/...

2018-07-27 22:18:36 514

原创 提升数—权值的思考

2018-07-27 11:45:22 184

原创 统计学习方法——支持向量机

支持向量机是一种二分类模型,他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大时它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器,支持向量机的学习策略就是间隔最大化,课形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题,支持向量机的学习算法是求解凸二次规划的最优化算法。SVM中四个问题:①SVM思想;间隔最大化。②核函数:将原空...

2018-07-24 22:20:07 442

原创 统计学习方法——决策树

决策树是一种基本的分类与回归方法。   一、决策树模型决策树可以转换成一个if-then规则的集合,也可以看作是定义在特征空间划分的类的条件概率分布(特征为变量,类为概率)。CART与ID3、ID4.5的区别:CART假设决策树是二叉树,特征取值为“是”或“否”。 二,决策树的生成算法2.1、ID3、ID4.5算法ID3和C4.5输入:训练集D,特征集A,阀...

2018-07-20 22:28:10 331

原创 统计学习方法——朴素贝叶斯

一、朴素贝叶斯原理生成模型A、后验概率最大化的含义参考《统计学习方法》李航P48B、朴素贝叶斯法中参数的估计极大似然估计计算如下:贝叶斯估计(由于极大似然估计可能会出现求出来结果为0的情况,为了解决这一问题可以采用贝叶斯估计)具体如下: 假设ajl可能有Sj(第j个特征下值的种类数量)个可能值,假设ck可能有K(类的种类)个可能值,那么:上面式子...

2018-07-19 11:01:58 233

原创 统计学习方法——k近邻

一、K近邻模型 模型:特征空间的划分,基本三要素——距离度量、k值的选择何分类决策规则 策略:距离度量:欧式距离、曼哈顿距离等                   k值:通常采用交叉验证(k越小,越容易过拟合)                  分类决策规则:多数表决 二、KNN算法基本步骤:1)计算待分类点与已知类别的点之间的距离2)按照距离递增次序...

2018-07-18 15:30:49 192

原创 机器学习(十一)——提升方法

集成学习:通过构建并结合多个学习器来完成学习任务集成学习方法大致可以分为两大类:a.个体学习器间存在强依赖关系,必须串行生成序列化方法——代表:Boosting;b.个体学习器间不存在强依赖关系,可同时生成的并行化方法——代表:Bagging和”随机森林“一、BoostingBoosting的工作机制类似:先从初始训练集训练出一个基学习器(算法+数据),再根据基学习器的表现对训练样本分...

2018-07-17 11:00:14 2030 1

原创 机器学习(十二)——隐马尔可夫模型

 一、隐马尔科夫模型的基本概念1、马尔可夫链:时刻t+1下状态的概率分布只与时刻t下状态有关,与该时刻以前的状态无关。        数学公式表达:        图形表示: 2、隐马尔可夫模型:状态(z)不可直接观测的马尔可夫链。        HMM由初始概率分布π、状态转移概率分布A以及观测概率分布B确定。                 描述整个隐码模型...

2018-07-02 20:34:08 339

转载 更换 pip 源解决下载速度过慢问题

在使用 Python 的过程中,免不了要用 pip 安装各种模块,但是由于官方 Pypi 经常被墙,导致下载速度过慢甚至出错,最好的办法是将自己使用 pip 源更换一下。以下是几个常用的国内源:阿里云http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/豆瓣http://pypi.do...

2018-06-14 23:06:34 547 1

原创 机器学习(十)——贝叶斯分类器

第一章节 贝叶斯决策论贝叶斯决策论是概率框架下的实施决策的基本方法;贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。1 贝叶斯基本原理目的:通过误判损失最小化得到 过程:参考周志华《机器学习》的贝斯决策论   不难看出,欲使用贝叶斯判定准则来最小化决策风险,首先要获得后验概率P(c\x)-----(下面的截图中c和x改为A和D) 对于...

2018-06-14 16:09:49 430

原创 朴素贝叶斯法

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地,学习先验概率分布和条件概率分布。朴素贝叶斯分类的流程:...

2018-06-13 23:17:59 144

原创 机器学习(九)——EM算法

   缺少:推导GMM 通过坐标上升理解EN的过程 1.为什么要用EM算法2.为什么EM算法中Q函数如此定义,且迭代计算Q函数及其最大?  EM算法的流程:1 拿到所有的观测样本,根据先验或者喜好先给一个参数估计。2 根据这个参数估计和样本计算类别分布Q,得到最贴近对数似然函数的下界函数。3 对下界函数求极值,更新参数分布。4...

2018-06-11 16:35:23 461

原创 机器学习(八)——聚类

本次笔记目标:第一章节:相似度的度量方法及联系第二章节:掌握K-means聚类的思路和使用条件第三章节:层次聚类第四章节:密度聚类(DBSCAN、密度最大值聚类)第五章节:谱聚类第一章节:相似度的度量方法及联系1.1 聚类的定义:        聚类就是对大量位置标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。1.2 相似度/距离...

2018-06-09 15:05:46 636

原创 聚类相似度的方法间联系

一、相似度方法二、方法间的联系2.1 欧式距离欧式距离,以空间为基准的两点之间最短距离。说的通俗点,两点之间直线最短的概念。例:二维空间中2.2 杰卡德相似系数两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。卡德相似系数是衡量两个集合的相似度一种指标。2.3 余弦相似度几何中夹角余弦可用来衡量两个向量方向的差异,机器学习中借用这一概念来衡量...

2018-06-07 21:30:19 4873

原创 机器学习(七)——svm(支持向量机)

思路简写,后期重新改写模型:线性分类模型,属于判别模型策略:间隔最大化具体参考:https://blog.csdn.net/v_july_v/article/details/7624837

2018-06-04 22:39:15 136

原创 随机森林

随机森林思想Bagging的策略:从样本集中重采样(有可能存在重复)选出n个样本在所有属性上,对这n个样本建立分类器(ID3、C4.5、CART、SVM、Logistic回归等)重复上面两步m次,产生m个分类器将待预测数据放到这m个分类器上,最后根据这m个分类器的投票结果,决定待预测数据属于那一类(即少数服从多数的策略)在Bagging策略的基础上进行修改后的一种算法从样本集中用Bootstrap...

2018-05-31 21:28:18 329

原创 机器学习(六)——决策树和随机森林

参考网上 综合整理决策树与随机森林本篇博客将重新给出对决策树与随机森林的认识。主要分析决策树的学习算法:信息增益和ID3、C4.5、CART树,然后给出随机森林。 决策树中,最重要的问题有3个: 1. 特征选择。即选择哪个特征作为某个节点的分类特征; 2. 特征值的选择。即选择好特征后怎么划分子树; 3. 决策树出现过拟合怎么办? 下面分别就以上问题对决策树给出解释。决策树往往是递归的选择最优特征...

2018-05-28 22:24:43 1019

原创 机器学习(五)——回归

一. 线性回归1.1线性回归基本原理参考:https://www.cnblogs.com/pinard/p/6004041.html1.2 线性回归的损失函数推导(图形理解)        原理: 极大似然估计采用的是高斯分布详细推导公式参考:暂定(ppt)1.3 线性回归的损失函数的正规解详细推导公式参考:暂定(ppt)1.4 线性回归的损失函数的梯度...

2018-05-26 15:35:32 341

原创 机器学习(四)——凸优化

参考凸优化(一):https://blog.csdn.net/xierhacker/article/details/61415747凸优化(二):https://blog.csdn.net/xingce_cs/article/details/73648609凸优化(三):https://blog.csdn.net/xingce_cs/article/details/73715903凸优化(四):h...

2018-05-23 00:05:49 1631

原创 机器学习(三)——矩阵和线性代数

矩阵 SVD 矩阵的乘法状态转移矩阵状态转移矩阵特征值和特征向量 对称阵 正交阵 正定阵数据白化矩阵求导 向量对向量求导 标量对向量求导 标量对矩阵求导一.矩阵1.1 SVD奇异值分解(Singular Value Decomposition),假设A是一个m×n阶矩阵,则存在一个分解使得         Σ对角线上的元素称为矩阵A的奇异值;        U的第i列称为A的关于σi的左奇异向量;...

2018-05-20 23:18:33 890

原创 机器学习(二)——数理统计与参数估计

概率论:期望;方差;偏度;峰度协方差;相关系数;独立相关性;数理统计:大数定理;切比雪夫不等式;矩估计;极大似然估计1、统计量概念1.1 期望        从感情上来讲就是预期的值,数值意义上来讲可以认为是概率加权下的“平均值”。        特别地,若特征X和Y相互独立时,E(XY)=E(X)E(Y);反之不成立。如果已知E(XY)=E(X)E(Y),只能说明X和Y不相关。那么不相关和独立有...

2018-05-19 22:20:47 2738

原创 机器学习(一)——数学分析与概率论

数学分析导数:曲线变化快慢的反应Taylor公式——Maclaurin:方向导数:;梯度:        梯度本意是一个向量(矢量),表示某一函数再该点处的方向导数沿着该方向取得最大值概率论基础条件概率:            全概率:贝叶斯公式:常见的概率分布:指数分布:暂定概率分布参考:https://blog.csdn.net/kicilove/article/details/7865585...

2018-05-19 11:21:24 862

原创 Goland 转码

func login(url string) *goquery.Document {//声明客户端,发送request,接受respond client := &http.Client{} req, _ := http.NewRequest(http.MethodGet, url, nil) res, _:= client.Do(req)//将respond转码为utf-8...

2018-02-08 15:59:23 1035

转载 Go语言net/http 解读

Http包提供实现HTTP客户端和服务端的方法与函数。Get、Head、Post、PostForm配合使用实现HTTP请求:resp, err := http.Get("http://example.com/")resp, err := http.Post("http://example.com/upload", "image/jpeg", &buf)resp, err := ht

2018-01-12 10:54:41 1955

转载 Go net/http 超时指导

当在编写一个Go语言的HTTP服务端或者是客户端时,超时是最容易同时也是最敏感的错误,有很多选择,一个错误可以导致很长时间没有结果,知道网络出现故障,或者进程宕掉。HTTP是一个复杂的多阶段的协议,所以超时没有一刀切的解决方案。想想一个流的端点与JSON API端点和comet端点。事实上,默认值往往不是你想要的。在这篇文章中,我将采取不同的阶段,你可能需要申请一个超时,并在服务器

2018-01-12 10:50:49 785

原创 分布式版本控制系统---Git

一.GIT下载与初始化与使用规范 第一步:git 基础配置 git config --global user.name "你的名字或昵称" git config --global user.email "你的邮箱" 第二步:初始化本地库(然后在你的需要初始化版本库的文件夹中执行) git init git remote add origin <你的项目地址> //注:项目地址形式为:http://git.oschina.net/xxx/xxx.git或者 [email protected]

2017-12-20 17:39:45 365

转载 go语言--爬虫--对字符串的处理

Go做字符串处理,用到了go的strings库,借此对go strings库做个总结,将go strings中所有函数的功能做一个简单的总结。详见:https://studygolang.com/pkgdocCompare(a, b string) int按字典顺序比较a和b字符串大小func Contains(s, substr string) bool判断字

2017-12-20 16:33:09 676

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除