自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 SVD分解及推荐系统的矩阵分解

问题描述SVD矩阵分解代替方法梯度下降一般形式推荐系统梯度下降求解:算法实现算法评估参考问题描述在这里,我们将谈论的问题是评级预测问题。我们的数据是评级历史数据,即用户对项目的评级,值区间是[1,5]。我们可以把数据放在一个稀疏矩阵R中: R=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜1?2??5????1?2?43????5?3??4???2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟Ali...

2018-04-02 18:02:12 2678 1

原创 迁移学习

迁移学习Tradaboost,TCA,JDA算法简介1、迁移学习简介1.1 迁移学习定义1.2 迁移学习数学表示1.3. 迁移学习的矩阵形式1.4 传统解决方案1.5. 迁移学习分类2 Tradaboost 算法2.1 Tradaboost算法简介2.2 Tradaboost 算法流程2.3 Tradaboost算法核心代码3、 Joint Distributi...

2018-03-29 11:40:01 3858 1

原创 离散变量处理

one-hot encoding  假如多个特征需要独热码编码,那么久按照上面的方法依次将每个特征的独热码拼接起来:    {sex:{male, female,other}}    {grade:{一年级, 二年级,三年级, 四年级}}  此时对于输入为{sex:male; grade: 四年级}进行独热编码,可以首先将sex按照上面的进行编码得到{100},然后按照grade进行编码为{0001

2017-05-09 14:15:58 5954

原创 单因素方差分析,卡方检验,充分条件必要条件

方差分析 组间: SSA=∑i=1rm(xi¯−x¯)2SSA=\sum_{i=1}^{r}m(\bar{x_i}-\bar{x})^2 MSA=SSAr−1MSA=\frac{SSA}{r-1} 组内: SSE=∑i=1r∑j=1m(xij−xi¯)2SSE=\sum_{i=1}^{r}\sum_{j=1}^{m}(x_{ij}-\bar{x_i})^2 MSE=

2017-04-05 19:16:17 3971

原创 机器学习中的不平衡问题

随机采样随机过采样 从少数类SminS_{min}中抽取数据集EE,采样的数量要大于原有少数类的数量,最终的训练集为Smaj+ES_{maj}+E。随机欠采样 从多数类SmajS_{maj}中随机选择少量样本EE,再合并原有少数类样本作为新的训练数据集,新数据集为Smin+ES_{min}+ESMOTE对于少数类中每一个样本xx,以欧氏距离为标准计算它到少数类样本集SminS_{min}

2017-02-17 10:09:52 828

原创 xgboost原理

1.1、一般的目标函数:Obj(Θ)=L(Θ)+Ω(Θ)Obj(\Theta)=L(\Theta) + \Omega(\Theta) L(Θ):损失函数,代表我们的模型有多拟合数据,Ω(Θ):正则化项,表示模型的复杂程度L(\Theta):损失函数,代表我们的模型有多拟合数据, \Omega(\Theta):正则化项,表示模型的复杂程度 这样目标函数的设计来自于统计学习里面的一个重要概念叫

2017-02-16 13:18:11 722

原创 softmax 回归原理及python实现

softmax回归python实现程序1、Logistic回归:1.1、逻辑回归数据集[(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))][(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))]\left [(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\...

2017-01-17 14:05:37 4565

原创 人工神经网络 backpropagation algorithm

ann人工神经网络bp算法python实现1、单个神经元1.1、单个神经元的表示方法: 这代表一行数据的处理,即 x1,x2,x3x1,x2,x3x_1,x_2,x_3属于一个样本的三个维度,输出为这个样本的激活函数的值。hW,b(x)=f(z)=f(WTx)=f(∑3i=1Wixi+b)hW,b(x)=f(z)=f(WTx)=f(∑i=13Wixi+b)\t...

2017-01-09 18:50:26 777

原创 感知机原理及python实现

给定一个数据集:T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}yi∈{−1,+1}y_i \in \{-1,+1\}输入空间中任意一点x0x_0到超平面S的距离为:−1||w||yi|w⋅x0+b|-\frac{1}{||w||}y_i|w\cdot x_0 +b| 这里||w||是w的L2范数这里||w

2017-01-05 11:49:24 695

原创 svm 支持向量机

python实现svm程序 python实现svm精简版1、线性可分SVM1.1 、数据集及最终分类器形式假设特征空间上的训练数据集:T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} xi为特征向量,yi∈{+1,−1}x_i为特征向量,y_i\in \{+1,-1\}给定线性可分训练数据集,通过间

2016-12-14 15:32:06 684

原创 BLUP

y=Xβ+Zu+ey=X \beta+Zu+e E(y)=Xβ,E(u)=0,E(e)=0E(y)=X \beta,E(u)=\mathbf{0},E(e)=\mathbf{0} Var(u)=G,Var(e)=R,Cov(u,e′)=0Var(u)=G,Var(e)=R,Cov(u,e^{'})=0 混合模型,当u和e服从正态分布,即混合模型,当u和e服从正态分布,即 u∼N(0,G),e

2016-12-07 17:33:24 1624

原创 python基础教程

for index, data in var.iterrows(): dict_var[index] = list(data)

2016-11-21 11:53:42 476

原创 随机森林,GBDT,Adaboost原理及python实现

随机森林 python实现GBDT python实现Adaboost python实现装袋(bagging)又称自助聚集(boot strap aggregating), 是一种根据均匀分布概率从数据集最中有放回的重复抽样的技术。每个自助样本集都和原始数据集一样大,自助样本D_{i}大约包含63%的原训练数据。决策树桩(decision stump) 仅基于单个特征来做决策,仅包含一层的二叉

2016-11-11 15:35:14 7778 2

原创 TF-IDF

TF-IDF

2016-11-09 18:42:35 664

原创 对数函数运算规则

logM⋅Na=logMa+logNalog_{a}^{M\cdot N}=log_{a}^{M}+log_{a}^{N} logM/Na=logMa−logNalog_{a}^{M/N}=log_{a}^{M}-log_{a}^{N} alogNa=Na^{log_{a}^{N}}=N

2016-11-08 21:15:16 5041

原创 指数族分布、广义线性模型、逻辑回归前传

指数族

2016-11-08 19:18:19 2097

原创 分类问题评价标准

分类问题评价标准1、混淆矩阵 . 预测的正类(+) 预测的负类(-) 实际的正类(+) f++TPf++TPf_{++}TP f+−FNf+−FNf_{+-}FN(Ⅱ) 实际的负类(-) f−+FPf−+FPf_{-+}FP(Ⅰ) f−−TNf−−TNf_{--}TN 以预测的结果看待实际的值 T(True), F(...

2016-11-08 19:16:06 1973

原创 K-means聚类算法

实现本文python程序链接K-means聚类算法1、相关概念及过程1.1、聚类概念它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。1.2、聚类过程过程的图片描述: 如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。过程的文字描述:(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(

2016-11-02 09:55:50 794

原创 熵理解及决策树算法

1、熵及条件熵1.1熵熵(entropy)代表随机变量的不确定性,熵越大随机变量的不确定性就越大,就越混乱,自然状态下向着熵值增加的方向发展。 熵值大->不确定性大(p值越小)->混乱程度大.依据Boltzmann′sH−theorem,香农把随机变量X的熵值Η(希腊字母Eta)定义如下,其值域为x1,...,xn:依据Boltzmann′sH−theor...

2016-10-31 17:39:13 1337

原创 机器学习正则化

1、范数概念1.1文字描述范数(Norm)是一个函数,其赋予某个向量空间(或矩阵)中的每个向量以长度或大小。对于零向量,另其长度为零。直观的说,向量或矩阵的范数越大,则我们可以说这个向量或矩阵也就越大。有时范数有很多更为常见的叫法,如绝对值其实便是一维向量空间中实数或复数的范数,而Euclidean距离也是一种范数。 范数表示向量长度或大小 1.2 公式表示设p⩾1的实数,p−nor

2016-10-31 17:37:20 536

原创 主成分分析(PCA)

过程原理3.1 最大方差理论 在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。因此我们认为,最好的k维特征是将n维样本点转换为k维后,每一维上的样本方差都很大。 比如下图有5个样本点:(已经做过预处理,均值为0,特征方差归一) 下面将样本投影到某一维

2016-10-31 17:34:43 656

原创 朴素贝叶斯

朴素贝叶斯python程序实现 贝叶斯公式: P(A,B)=P(A|B)⋅P(B)=P(B|A)⋅P(A)(1.1)P(A,B)=P(A|B)\cdot P(B)=P(B|A)\cdot P(A)\tag{1.1} P(A|B)=P(B|A)⋅P(A)P(B)(1.2)P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}\tag{1.2} P(B)=P(A,

2016-10-31 16:52:41 316

原创 逻辑回归及梯度下降

实现本文python程序链接 实现本文ipython程序链接1、构造似然函数(1)、hθ(x)hθ(x)h_{\theta }(x) 表示y=1的概率 hθ(x)=g(θTx)=11+e−θTx(1.1)(1.1)hθ(x)=g(θTx)=11+e−θTxh_{\theta }(x)=g(\theta^{T}x)= \frac{1}{1+e^{-\theta^{T}x}}\tag{...

2016-10-31 10:32:48 686

原创 线性代数相关概念

奇异矩阵 奇异矩阵必须为方阵; 2.奇异矩阵的行列式值为0。

2016-10-28 17:01:51 982

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除