余生最年轻-CSDN博客

原创 MATLAB的一些简单命令(2)

关键字一、line连接两点的形成线段line([1,2],[4,7]);hold on;line([0,8],[5,12]);二、画一点o表明这个点的形状是圆形，也可以指定为其他参数plot(0,3,'o')三、对于for循环for i=begin:end:step 表明对于x从x=begin开始，每次加step，直到不小于end为止for ...

2018-09-14 08:09:35 931

原创 MATLAB的一些简单命令(1)

关键字: .* if A\y prctile input linspace disp 注释本博客讲解了一些matlab常用简单命令的含义，这些命令简单却容易忘记，所以便整合了一下。至于较为复杂的命令，则将会单独写博客记录。为什么代码段设置选项没有matlab，理学院学生emmm，抗议~1、否定用~表示，比如 a=1; a~=1;返回为02、if 表达式 ...

2018-09-05 09:23:25 2761

原创先验分布后验分布似然估计

关键字：evidence ，贝叶斯公式一、先验分布对未知参数x的先验信息用一个分布形式p(x)来表示，此分布p(x)称为未知参数x的先验分布.(即在实验前通过已知信息知道的分布)可以理解为对某个原因的经验推断。对于一个未知参数，在抽取样本之前就已经知道了一些关于该参数的信息。我们知道的途径可能来源于生活经验，自然规律等等。例子：来源 https://blog.csdn.net/l...

2018-09-04 19:07:16 12464

转载 matlab的randperm和randsample

参考链接：https://blog.csdn.net/jiejinquanil/article/details/50057045一、randpermrandperm能够产生不重复的随机排列用法：randperm(n,k) 可以产生0-n之间的k个随机整数randperm完成的是不重复的重排采样（k-permutations），如果结果中的数需要重复多次出现的情况，则可以用：ran...

2018-09-03 22:08:07 14219

转载 CSV文件格式

第一次转载，来源 https://blog.csdn.net/evilcry2012/article/details/53112858 CSV&nbsp;（逗号分隔值文件格式）&nbsp;编辑逗号分隔值（Comma-Sep...

2018-08-29 16:22:46 2098

原创 numpy.array

前言：这是一个多维数组，同构数据多维容器（该数组必须都是一个数据类型的）一、构造import numpy as npa=np.array([[1,2,3],[3,4,5]])aOut[10]: array([[1, 2, 3], [3, 4, 5]])二、运算a+aOut[11]: array([[ 2, 4, 6], [ 6, ...

2018-08-26 16:36:42 355

原创 pandas.DataFrame简介

一、概念类似表格，可以看成由Series组成的字典。Series的各个index看成列索引。二、定义注意传入的列索引需要加上冒号:，默认索引为0,1,2,....from pandas import DataFramedata={'a':[1,2,3,4],'b':[2,3,4,5],'c':[3,4,5,6]}d=DataFrame(data)dOut[11]: ...

2018-08-08 21:14:11 1019

原创 pandas.Series简介

一、导入from pandas import Seriesimport pandas as pd#注意着两个导入的先后顺序二、示例2.1 初始化Series相当于一个一维数组，Series显示时的一大好处就是会自动对齐传入一个list，index默认为0~N-1注意a.values的s不要忘记In [5]: a=Series(['a','b','c','d'])...

2018-08-07 15:15:44 3522

原创牛顿切线法

关键字：牛顿(Newton)迭代公式，几何意义，收敛速度，收敛定理，多重根参考：https://wenku.baidu.com/view/9fa19f3bfe00bed5b9f3f90f76c66137ee064fcd.html一、步骤对于，假设一个近似解为（因为可能会有很多根），那么在近似解附近的一阶泰勒展开式可以写成对于且，可以近似写成解得将新得到的x作为近似解，令...

2018-07-27 21:27:05 18035

转载三次B样条插值和误差分析

关键字：基函数，控制点，节点参考：http://www.docin.com/p-1511846558.html 前言：之前写写过一篇B样条曲线，这篇是原文的深度扩展，是针对B样条曲线的一种特殊情况，三次B样条，讨论了其插值和误差分析，添加了一些个人总结。思路：根据已知的型值点（就是给出的已知的数据点），采用均匀参数法构造节点矢量，得到基函数的表达形式，然后利用逼近思想构造三对角阵，利用...

2018-07-27 20:10:46 33894 12

转载 B样条曲线（B-spline Curves）

关键字：NURBS，基函数，控制点，节点，另一个讲的很好的 https://www.cnblogs.com/icmzn/p/5100761.html看了网上很多相关资料才得以下笔，资料太多，这里就不一一列举了，感谢各位大佬的资料本博客顺序不太好，看前面的东西可能需要提前看后面的东西。正在努力修炼，敬请谅解写了个B样条曲线计算的完成程序，包括绘图，https://download.c...

2018-07-27 16:34:38 202312 29

原创回归分析----ROOT

一、定义通常用于分析自变量x对因变量Y的影响，以便建立两者之间的数学模型。也用来预测。通常因变量除了受自变量x的影响，还受次要变量的影响，但是其他变量的影响很微小，这些变量不像x一样容易控制，会呈现出较大的不确定性，所以这些次要变量通常用一个变量表示。由此建立回归分析模型，因为是随机变量，所以Y也是随机变量。显然可以用近似替代x与Y真正的对应关系，然后我们可以对做出估计。根据自变量...

2018-07-25 16:08:38 698

转载插值与拟合，样条插值

关键字：，B样条，回归一、定义也叫“内插法”，给定包含一组(x,f(x))，该组里面有n个数据点。然后根据这一组数据点计算一个新的点Xi处对应的的f(Xi)值，一般这个新的点对应的值f(x)都是经过近似得到。GPR就是其中一种计算f(Xi)的值的方法。百度百科定义：是利用函数f (x)在某区间中已知的若干点的函数值，作出适当的特定函数，在区间的其他点上用这特定函数的值作为函数f (x)...

2018-07-24 20:55:37 10912

转载回归分析，同时置信带

关键字：回归分析，同时置信带，相互独立，横截面数据，纵向数据一、回归分析1.1 定义回归分析（regression analysis)是确定两种或两种以上变量（比如自变量与因变量，自变量也叫协变量）间相互依赖的定量关系的一种统计分析方法。运用十分广泛，通常用于预测分析。其中为协变量，Y为因变量，f为回归函数1.2 分类回归分析按照涉及的变量的多少，分为一元回归和多元回归...

2018-07-22 15:44:18 3542

关键字：一、先验概率1.1 定义直观理解，所谓“先”，就是在事情之前，即在事情发生之前事情发生的概率。是根据以往经验和分析得到的概率。1.2 例子比如抛硬币，我们都认为正面朝上的概率是0.5，这就是一种先验概率，在抛硬币前，我们只有常识。这个时候事情还没发生，我们进行概率判断。所谓的先验概率是对事情发生可能性猜测的数学表示。二、后验概率1.1 定义事情已经发生了，事情发生可能有很多原因，判断事情发...

2018-07-11 16:43:17 46220 4

转载 python的DataFrame,Series

一、DataFrame初始化1.1 通过字典初始化字典的键对应列名，键的值对应列的值。每个键应的值应该是一个list，如果键对应的值只是一个值而不是一个list，就这个列的所有值都是这个键对应的值。注意所有list的长度应该一样，不能一个list都没有。d={'a':[1,2,3],'b':[3,3,2],'m':9}DataFrame(d)Out[55]: a b m0 1...

2018-07-08 20:01:03 1454

原创机器学习笔记8——大规模机器学习(Large scale machine learning)

概要：大规模机器学习用于处理大数据集一、随机梯度下降法1.1 产生由于梯度下降法（批量梯度下降法，每次都需要考虑所有的样本）在计算规模很大的数据时比较慢，所以产生了随机梯度下降法1.2 定义首先随机打乱所有数，这是数据预处理的过程（本次迭代只需要计算一个样本）二、Mini-batch梯度下降2.1 定义介于梯度下降法和随机梯度下降法之间，每次使用b个样本，b这里就是一个称为mini-batch大小...

2018-07-08 10:07:44 1247

原创机器学习笔记8——推荐系统Recommender Systems

前言：这是机器学习的一个重要应用领域，就像淘宝给你推荐商品一样一、问题规划（电影评分）1.1 符号表示表示用户的数量，下标表示具体的第几个用户表示电影的数量，下标表示具体的第几部电影为1时，表示用户给电影评价了用户对电影评价得分，为0-5表示1.2 问题定义给出，然后预测用户对自己还没有评价的电影可能会给出的评分（就是图里面的问号部分），了解用户可能会喜欢的电影并推荐如上图所示，=4，=5二、基于...

2018-07-07 22:21:12 1709

原创机器学习笔记7——异常检测（Anomaly Detection）

前言：这是机器学习算法的一个应用，主要用于无监督学习。一、定义已知有了一些数据，，新来一个数据，需要判断这个数据是否异常。给定无标签数据集，对数据建模为P(x)，x为特征变量。如果,就是阈值，那么就认为这是异常。二、利用高斯分布进行异常检测（样本都无标记）1、条件每个数据有n个特征，可以理解为n维，每个特征都服从自己的高斯分布。2、总结步骤三、算法评估（有些样本有标记）3.1 要求通常训练...

2018-07-07 20:50:47 5504

原创机器学习笔记6——无监督学习（聚类算法）

关键字：K-means算法，聚类中心，畸变函数一、定义与有监督学习相比，无监督学习的样本没有任何标记。无监督学习的算法需要自动找到这些没有标记的数据里面的数据结构和特征。这里介绍一下聚类算法。二、聚类算法2.1 定义把数据集分成一个个的簇cluster（也可以理解为一组一组的形式）2.2 K-means算法（K均值算法）（1）首先随机生成几个点，叫聚类中心（Cluster Centroids）。C...

2018-07-07 11:37:30 39583

原创机器学习笔记5——系统设计

关键字：偏斜类，查准率，召回率一、垃圾邮件分类的例子1.因为垃圾邮件有一些典型的出现比较多的词，比如buy,diccount,hurry等等，所以可以先从训练集中选择出现频率最高的一些词，把他们放到一个向量里去，这个向量叫特征变量。然后判断的时候就是如果单词出现了，对应的地方就记为1，否则记为0.。最好在交叉验证向量集上做误差分析。二、不对称分类的误差评估和衡量标准1、偏斜类（通常把它的值定义为1...

2018-07-06 16:24:47 436

原创机器学习笔记4——过拟合与正则化

关键字：正则化参数前言：有关代价函数，在笔记2和3逻辑回归和线性回归里面已经提到过。这里就不再过多介绍。一、定义因为训练模型中有些数据本来就有误差，所以不必把每个数据都考虑进去。如果真的完全拟合到每一个数据，那么模型会变得很奇怪，导致新的预测数据来时，对应的预测值往往显然错误。这个现象就是过拟合。与过拟合相对的是欠拟合，这个模型就是非常简单的那种，导致连最基本的训练数据都训练不好。二、过拟合的解决...

2018-07-05 22:16:18 336

原创机器学习笔记3--逻辑（Logistic）回归

关键字：回归，分类，sigma函数，惩罚项虽然名字里有回归，但是这是一个分类问题1.分类问题此前的回归模型预测的y是一个连续值，但是分类问题里面的y是一个离散值，通常为0或者1，表示否或者是，分别代表负类和正类。更一般的情况是y可以取不止两个离散值。2.定义对于输出为0和1的分类问题，逻辑回归里输出的y不是离散的数，而是在0和1之间的，即[0,1]为输出的范围。逻辑回归里面的输出函数记为，，其图像...

2018-07-05 21:03:29 525

原创机器学习笔记2——多变量线性回归

1.定义：顾名思义，多变量线性回归就是变量不止一个。因为是线性的，所以可以表示为其中的ai是有实际意义的，表示当Xi变化一个单位后，对应的Y的变化...

2018-07-05 11:10:34 398

原创矩阵相关

1、表示4*2矩阵的全体矩阵的集合

2018-07-05 09:11:41 385

原创机器学习笔记1——单变量线性回归

关键字：代价函数，梯度下降话说这个梯度下降法我们的专业课数值线性代数是有的，突然发现数值线性代数果然是有用的啊

2018-07-04 22:03:27 410

转载简单的python读写excel

今天发现了win10的一个自带代码编辑器code writer，支持的格式很多，还是挺好用的注意读取文件的路径前面一定要加上r，否则读取时对于'\'会把'\'当成转义字符来处理，这样就找不到路径了这里读取表格使用xlrd模块path=r'C:/Users/ni/Desktop/test.xlsx'import xlrd#导入模块fro = xlrd.open_workbook(p...

2018-07-03 20:53:51 563

原创贝叶斯优化 Bayesian Optimization

关键字：提取函数aquisition function，熵，响应曲面简介：所谓优化，实际上就是一个求极值的过程，数据科学的很多时候就是求极值的问题。那么怎么求极值呢？很显然，很容易想到求导数，这是一个好方法，但是求导即基于梯度的优化的条件是函数形式已知才能求出导数，并且函数要是凸函数才可以。然而实际上很多时候是不满足这两个条件的，所以不能用梯度优化，贝叶斯优化应运而生了。贝叶斯优化...

2018-07-02 22:28:06 35354 14

原创高斯过程回归GPR

关键字：核函数，RBF超参数调优对这个很熟悉了，简单写一下本人用matlab实现了一下:https://download.csdn.net/download/qq_40597317/10646888可以参考论文阅读。一、GP是干什么的已知n个点的(x,y)，想知道在任意一个新的点Xn+1,对应的Yn+1是怎么样的。可以用来进行贝叶斯优化。二、基本思想因为高斯分布在...

2018-07-02 20:12:18 45410 14

原创 JSON：json.load和json.loads

data示例为123234234223421. json.load用来读取文件，直接打开文件读取文件信息f=open('data.txt')json.load(f)2.json.loads逐行读取打开的文件path='data.txt'import jsonresult=[json.loads(line) for line in open(path)]结果为In [21]:result...

2018-07-01 21:48:00 4861

转载贝叶斯线性回归

摘要：关键字：共轭先验，贝叶斯估计的增量学习，极大似然估计，最大后验估计1.最大似然估计 1.推导过程考虑有N个样本X，每个样本都是m维的，所以这是一个m类的问题。第i类服从分布，这里的i=1,2,...,m。假设各个样本相互独立，并且各类的参数不相互影响，每个类都服从高斯分布。所以每类的形式已知，只是参数（均值和方差）未知。假设对某一类，联合概率密度函数为，seta代表与...

2018-06-11 12:05:34 9233 1

转载 Ridge Regression

daixie

2018-06-11 10:26:01 2821

转载线性回归（内有最小二乘法）->NODE

ROOT传送门关键字：最小二乘法，多重共线性现象一、线性回归1.1 定义所谓回归，就是确定自变量和因变量之间的对应关系，线性回归对于给定的X和Y，把焦点放在给定的x对应的y的概率分布，而不是x和y的联合概率分布。所以线性回归关注的是y。一个比较特殊的线性回归模型：逻辑模型（Logistic Regression）这是一个用于分类的线性回归模型1.2、优点 ...

2018-06-11 09:09:42 918

转载支持向量机SVM

关键字：总结：SVM是一个分类问题，是监督式学习（详见前面的微博：机器学习算法总结）。例子：from吴恩达的机器学习视频，肿瘤大小与是否患病的例子...

2018-06-11 08:56:33 1010

原创置信区间，统计量

关键字：置信区间1.作用：描述一个区间有多大的概率包含未知参数2.定义设母体的概率函数为f(x;seta)，seta为未知参数，有一个取自母体的子样，字样有n个数据。如果对事先给定的a，0<a<1，存在两个统计量seta1和seta2，使得P(seta1<seta<seta2)=1-a，即seta落在seta1和seta2之间的概率为1-a，就称区间（seta1,s...

2018-06-10 11:57:11 5028

转载估计量的无偏性，有效性和一致性

关键字：估计量，无偏性，有效性，一致性1.估计量参数的点估计就是根据样本构造一个统计量，作为总体未知参数的估计。设总体的X未知参数为seta,样本根据样本构造一个统计量（只依赖于样本，不含总体分布的任何参数。常用的统计量有样本矩，次序统计量：将样本按从小到大或者从大到小顺序排列，）作为未知参数的估计，则称这个统计量为未知参数的估计量。2.无偏性估计量抽样分布的数学期望等于总体参数的...

2018-06-10 11:30:33 109147

转载训练集，验证集，测试集

关键字：普通参数，超参数，训练集，验证集，测试集很多机器学习过程实际上就是选择模型，由于模型只是参数未知，所以就需要得到一个最优参数，使得模型可以比较准确的描述自变量到因变量的变化情况。对于模型的训练和度量，就需要用到已知的数据集。数据集一般分为以下3种。如果已经有了一个大的标注数据集，那么通过随机抽样获得三种数据集，三者的比例为8:1:1。如果有标注的话，也可以只随机抽样出训练...

2018-06-10 10:51:55 56792 1

原创正态分布，二项分布，泊松分布，协方差

1.正态分布若服从均值,方差分别为为，即服从，密度函数为，x为负无穷到正无穷图像如下图像中的曲线为密度函数，从负无穷到x的积分才是分布函数，即分布函数F(x)为密度函数的积分，F(x)为密度函数从负无穷到x的积分，2.二项分布在相同条件下重复做n次的试验称为n次独立重复试验，即n次独立的伯努利实验3.泊松分布（k=0,1,2,3...）4.协方差算法：Cov(x,y)=E(x-E(x))(y-E...

2018-06-10 10:06:07 10891

转载机器学习算法总结

机器学习算法总结1.监督式学习数据被打上标记，不断训练数据的过程。获取由自变量到因变量的模型，不断对这个模型训练，直到该模型可以较为准确的描述自变量到因变量的变化情况。常见算法：回归模型，决策树，随机森林，K邻近算法，逻辑回归等。例子：垃圾邮件分类，每个邮件都被标识是否为垃圾邮件。2.无监督式学习数据没有标记，无监督式学习在学习时并不知道其分类结果是否正确，亦不知道...

2018-06-09 21:54:16 1203

转载 python.sklearn.gaussian_process高斯过程回归的调用

代码来源：http://f.dataguru.cn/thread-878564-1-1.html（土匪加步枪）侵删因为最近在做GPR和Bayesian optimization，需要调用python相关库，于是上网找了网友的代码参考，感谢蓝色部分为我的查阅资料内容，是对GPR相关方法的解读，可以直接当成注释看# -*- coding: utf-8 -*-#高斯过程回归，首先要判断，所求的是否满足正...

2018-05-13 17:08:04 26728 3

B样条的实现

高斯过程回归

简单保险系统

空空如也