logooooooogol-CSDN博客

原创决策树和随机森林

决策树->随机森林；随机森林的难点是如何建立决策树；根节点ROOT：1，2，3。。。N个样本，给定规则（选取特征）给ROOT进行分类，假设分成C_1，C_2,如果是连续直接分类，如果是连续，那么给定阈值进行分类，递归形成的树，即是决策树，多个决策树即形成随机森林；决策树：CART:classification and regression tree；决策树：训练速度快，使用场景多；

2017-12-23 23:01:08 584

原创线性回归---公式推导

梯度下降公式推导：

2017-12-13 22:41:07 1064

原创 Logistic regression -binary classification

梯度下降公式推导：

2017-12-13 22:24:25 419

原创梯度下降算法---Gradient Descent

1，随机初始化θ\theta; 2，沿着负梯度方向迭代，更新后的θ\theta使得目标函数更小； θ=θ−α∂J(θ)∂θ\theta=\theta-\alpha \frac{\partial J(\theta)}{\partial \theta} 其中α\alpha是学习率或步长； J(θ)=12∑mi=1(hθx(i)−y)2J(\theta)=\frac{1}{2}\sum_{i=1}

2017-12-04 23:39:57 680

原创机器学习中的数据使用

原始数据===训练数据（得到参数θ\theta）+测试数据===训练数据+验证数据(用于选择超参数λ\lambda)+测试数据交叉验证：3折交叉验证；选择λ\lambda的过程就是调参的过程；Xθ=y=>θ=((XTX)−1XTy)X\theta=y=>\theta=((X^{T}X)^{-1}X^{T}y) 如果X可逆：θ=X−1y\theta=X^{-1}y；将X逆做推广，有Moore

2017-12-04 22:59:13 421

原创回归-regression

回归：数据(xi,yi)(i=1,n) xi是数据，yi是标记label，yi是连续的数据进行建模是回归问题，若yi是离散的叫分类问题classification；回归–>>regression来自高尔顿；线性回归，Logistic回归（二分类），Softmax回归（多分类）；梯度下降，最大似然估计（MLE），最小二乘法;线性回归模型： hθ(x)=∑ni=0θi∗xi=θTxh_{\thet

2017-12-03 22:43:24 318

原创素数求解

机器学习：Machine Learning，根据经验数据，通过算法获取模型的过程；数据集：Data Set，作为机器学习的输入，是已有的经验数据的集合；示例：instance，或称为样本sample，单个经验数据；属性：attribute，也可称为特征feature，其张成的空间称为属性空间attribute space、特征空间feature space，或称为输入空间input sp

2017-12-03 21:17:39 229

原创 python 统计相关库

引入库： from scipy import statsp=stats.poisson(10):以10为参数的泊松分布； y=p.rvs(size=1000):对泊松分布进行1000点采样； plt.hist(y,bins=30,range=(0,30),color=’g’,normed=True):画图,bin表示是多少个直方，range指的是横坐标范围； p.pmf(range(0,31

2017-11-23 23:25:25 1458

原创 matplotlib 学习

库引入： import matplotlib.pyplot as pltplt.figure(faceclor=’w’,figsize=(x,y)):背景白色,x为长的英寸数目，y为宽的英寸数； plt.plot(x,y,’r-‘,x,y,’go’,linewidth=2,makersize=8)：画2个图，一个用红色线，一个用绿色o，线宽和圈大小可指定； plt.xlabel(‘X’,fon

2017-11-23 22:41:31 246

原创 Machine Learning 基础概念

机器学习：Machine Learning，根据经验数据，通过算法获取模型的过程；数据集：Data Set，作为机器学习的输入，是已有的经验数据的集合；示例：instance，或称为样本sample，单个经验数据；属性：attribute，也可称为特征feature，其张成的空间称为属性空间attribute space、特征空间feature space，或称为输入空间input sp

2017-11-23 19:52:20 708

原创 numpy 学习

引入库： import numpy as npa = np.arange(0, 60, 10).reshape((-1, 1)) + np.arange(6) arange：可传参：[start],stop,[step],[dtype] reshape((r,c))，把数组按照r行c列重新组合,为-1时此轴会自动计算出； 1*n+n*1,会生成n*n的数组；上面代码生成数组如下：

2017-11-21 23:39:09 266

原创奇异值分解：SVD

SVD：Singular Value Decomposition 对于任意实数矩阵Am∗nA_{m*n},可进行分解： Am∗n=Um∗m∑m∗nVn∗nA_{m*n}=U_{m*m}\sum_{m*n}V_{n*n}，其中： ∑m∗n=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪λ100λ2...λn⎫⎭⎬⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪\sum_{m*n}=\begin{Bmatrix} \lambda _{1

2017-11-19 23:37:20 186

原创卷积Convolation

信号处理领域： ∫f(t)g(τ−t)dt\int f(t)g(\tau -t)dt即为f(t)同g(t)的卷积，如果f(t)为原始信号，g(t)为某滤波器，那么卷积就是滤波器g(t)对f(t)进行滤波的结果。、类推到图像处理领域：原始图像用矩阵A表示，滤波器对应卷积核矩阵B，沿着A取对应和A相同大小矩阵，将对应元素相乘并求和可得到矩阵C，C即为处理后的图像，取不同的卷积核，就能对图像作不

2017-11-19 23:17:38 274

原创傅立叶变换的一种理解方式

看小象学院邹博的视频，他对傅立叶变换的一个理解很特别，特记录如下：单位向量：a={a1,a2,…an},b={b1,b2,…bn}，可以通过其夹角来衡量两个向量的相似度F，设夹角为θ\theta,则F=cosθF=cos\theta=a1*b1+a2*b2+…an*bn；假设向量a和函数f(x)对应，b和函数g(x)对应，x={1,2,…n},则可以根据上式类比得到两个函数的相似度F=∑

2017-11-19 21:10:15 2388

原创网页中文词语抓取+词云显示

# -*- coding: cp936 -*-import urllib2from sgmllib import SGMLParser__author__ = 'niliang'#wordcloud生成中文词云from wordcloud import WordCloudimport codecs#import jieba#from scipy.misc import imreadim

2017-11-18 18:45:29 2614

原创 PCA-principal component analysis

PCA—–主成分分析，通常用于降维！找到样本的主方向，怎么找到呢，主方向具有如下本质特征：样本在主方向上投影的方差最大！ A为n个样本k个特征的矩阵，且已经进行中心话，即E=0; J(u)=Var(Au)=(Au−E)T(Au−E)=uTATAuJ(u)=Var(Au)=(Au-E)^{T}(Au-E)=u^{T}A^{T}Au，如果假设uu为单位化向量，即uTu=1u^{T}u=1即u

2017-11-17 23:14:32 227

原创最大似然估计理解

：Maximum Likelihood Estimation，简称MLE；要理解此概念首先要看下什么叫贝叶斯公式，如下： P(θ|D)=P(D|θ)P(θ)P(D)P(\theta |D)=\frac{P(D|\theta )P(\theta )}{P(D)} 我们把D看作是样本，θ\theta看作是这个样本所服从分布的参数，那么上式左侧P(θ|D)P(\theta |D)可理解

2017-11-17 20:12:42 1423