howardact-CSDN博客

原创 SVD分解及推荐系统的矩阵分解

问题描述SVD矩阵分解代替方法梯度下降一般形式推荐系统梯度下降求解：算法实现算法评估参考问题描述在这里，我们将谈论的问题是评级预测问题。我们的数据是评级历史数据，即用户对项目的评级，值区间是[1，5]。我们可以把数据放在一个稀疏矩阵R中： R=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜1?2??5????1?2?43????5?3??4???2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟Ali...

2018-04-02 18:02:12 2613 1

原创迁移学习

迁移学习Tradaboost，TCA，JDA算法简介1、迁移学习简介1.1 迁移学习定义1.2 迁移学习数学表示1.3. 迁移学习的矩阵形式1.4 传统解决方案1.5. 迁移学习分类2 Tradaboost 算法2.1 Tradaboost算法简介2.2 Tradaboost 算法流程2.3 Tradaboost算法核心代码3、 Joint Distributi...

2018-03-29 11:40:01 3477 1

原创离散变量处理

one-hot encoding　　假如多个特征需要独热码编码，那么久按照上面的方法依次将每个特征的独热码拼接起来：　　　　{sex：{male， female，other}}　　　　{grade：{一年级，二年级，三年级，四年级}}　　此时对于输入为{sex：male； grade：四年级}进行独热编码，可以首先将sex按照上面的进行编码得到{100}，然后按照grade进行编码为{0001

2017-05-09 14:15:58 5898

原创单因素方差分析，卡方检验，充分条件必要条件

方差分析组间： SSA=∑i=1rm(xi¯−x¯)2SSA=\sum_{i=1}^{r}m(\bar{x_i}-\bar{x})^2 MSA=SSAr−1MSA=\frac{SSA}{r-1} 组内： SSE=∑i=1r∑j=1m(xij−xi¯)2SSE=\sum_{i=1}^{r}\sum_{j=1}^{m}(x_{ij}-\bar{x_i})^2 MSE=

2017-04-05 19:16:17 3855

原创机器学习中的不平衡问题

随机采样随机过采样从少数类SminS_{min}中抽取数据集EE，采样的数量要大于原有少数类的数量，最终的训练集为Smaj+ES_{maj}+E。随机欠采样从多数类SmajS_{maj}中随机选择少量样本EE，再合并原有少数类样本作为新的训练数据集，新数据集为Smin+ES_{min}+ESMOTE对于少数类中每一个样本xx，以欧氏距离为标准计算它到少数类样本集SminS_{min}

2017-02-17 10:09:52 803

原创 xgboost原理

1.1、一般的目标函数：Obj(Θ)=L(Θ)+Ω(Θ)Obj(\Theta)=L(\Theta) + \Omega(\Theta) L(Θ):损失函数，代表我们的模型有多拟合数据，Ω(Θ)：正则化项，表示模型的复杂程度L(\Theta):损失函数，代表我们的模型有多拟合数据， \Omega(\Theta)：正则化项，表示模型的复杂程度这样目标函数的设计来自于统计学习里面的一个重要概念叫

2017-02-16 13:18:11 700

原创 softmax 回归原理及python实现

softmax回归python实现程序1、Logistic回归：1.1、逻辑回归数据集[(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))][(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))]\left [(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})\...

2017-01-17 14:05:37 4514

原创人工神经网络 backpropagation algorithm

ann人工神经网络bp算法python实现1、单个神经元1.1、单个神经元的表示方法：这代表一行数据的处理，即 x1,x2,x3x1,x2,x3x_1,x_2,x_3属于一个样本的三个维度，输出为这个样本的激活函数的值。hW,b(x)=f(z)=f(WTx)=f(∑3i=1Wixi+b)hW,b(x)=f(z)=f(WTx)=f(∑i=13Wixi+b)\t...

2017-01-09 18:50:26 750

给定一个数据集：T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}yi∈{−1,+1}y_i \in \{-1,+1\}输入空间中任意一点x0x_0到超平面S的距离为：−1||w||yi|w⋅x0+b|-\frac{1}{||w||}y_i|w\cdot x_0 +b| 这里||w||是w的L2范数这里||w

2017-01-05 11:49:24 667

原创 svm 支持向量机

python实现svm程序 python实现svm精简版1、线性可分SVM1.1 、数据集及最终分类器形式假设特征空间上的训练数据集：T={(x1,y1),(x2,y2),...,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} xi为特征向量，yi∈{+1,−1}x_i为特征向量，y_i\in \{+1,-1\}给定线性可分训练数据集，通过间

2016-12-14 15:32:06 667

原创 BLUP

y=Xβ+Zu+ey=X \beta+Zu+e E(y)=Xβ,E(u)=0,E(e)=0E(y)=X \beta,E(u)=\mathbf{0},E(e)=\mathbf{0} Var(u)=G,Var(e)=R,Cov(u,e′)=0Var(u)=G,Var(e)=R,Cov(u,e^{'})=0 混合模型，当u和e服从正态分布，即混合模型，当u和e服从正态分布，即 u∼N(0,G),e

2016-12-07 17:33:24 1545

原创 python基础教程

for index, data in var.iterrows(): dict_var[index] = list(data)

2016-11-21 11:53:42 450

原创随机森林，GBDT，Adaboost原理及python实现

随机森林 python实现GBDT python实现Adaboost python实现装袋（bagging）又称自助聚集（boot strap aggregating），是一种根据均匀分布概率从数据集最中有放回的重复抽样的技术。每个自助样本集都和原始数据集一样大，自助样本D_{i}大约包含63%的原训练数据。决策树桩（decision stump）仅基于单个特征来做决策，仅包含一层的二叉

2016-11-11 15:35:14 7734 2

原创 TF-IDF

TF-IDF

2016-11-09 18:42:35 635

原创对数函数运算规则

logM⋅Na=logMa+logNalog_{a}^{M\cdot N}=log_{a}^{M}+log_{a}^{N} logM/Na=logMa−logNalog_{a}^{M/N}=log_{a}^{M}-log_{a}^{N} alogNa=Na^{log_{a}^{N}}=N

2016-11-08 21:15:16 4867

原创指数族分布、广义线性模型、逻辑回归前传

指数族

2016-11-08 19:18:19 2005

原创分类问题评价标准

分类问题评价标准1、混淆矩阵 . 预测的正类（+）预测的负类（-）实际的正类（+） f++TPf++TPf_{++}TP f+−FNf+−FNf_{+-}FN(Ⅱ) 实际的负类（-） f−+FPf−+FPf_{-+}FP(Ⅰ) f−−TNf−−TNf_{--}TN 以预测的结果看待实际的值 T(True), F(...

2016-11-08 19:16:06 1922

原创 K-means聚类算法

实现本文python程序链接K-means聚类算法1、相关概念及过程1.1、聚类概念它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。1.2、聚类过程过程的图片描述：如图所示，数据样本用圆点表示，每个簇的中心点用叉叉表示。过程的文字描述：(a)刚开始时是原始数据，杂乱无章，没有label，看起来都一样，都是绿色的。(

2016-11-02 09:55:50 751

原创熵理解及决策树算法

１、熵及条件熵1.1熵熵（entropy）代表随机变量的不确定性，熵越大随机变量的不确定性就越大，就越混乱，自然状态下向着熵值增加的方向发展。熵值大-&amp;amp;amp;gt;不确定性大（p值越小）-&amp;amp;amp;gt;混乱程度大.依据Boltzmann′sH−theorem，香农把随机变量X的熵值Η（希腊字母Eta）定义如下，其值域为x1,...,xn：依据Boltzmann′sH−theor...

2016-10-31 17:39:13 962

原创机器学习正则化

1、范数概念1.1文字描述范数（Norm）是一个函数，其赋予某个向量空间（或矩阵）中的每个向量以长度或大小。对于零向量，另其长度为零。直观的说，向量或矩阵的范数越大，则我们可以说这个向量或矩阵也就越大。有时范数有很多更为常见的叫法，如绝对值其实便是一维向量空间中实数或复数的范数，而Euclidean距离也是一种范数。范数表示向量长度或大小 1.2 公式表示设p⩾1的实数，p−nor

2016-10-31 17:37:20 505

原创主成分分析（PCA）

过程原理3.1 最大方差理论在信号处理中认为信号具有较大的方差，噪声有较小的方差，信噪比就是信号与噪声的方差比，越大越好。如前面的图，样本在横轴上的投影方差较大，在纵轴上的投影方差较小，那么认为纵轴上的投影是由噪声引起的。因此我们认为，最好的k维特征是将n维样本点转换为k维后，每一维上的样本方差都很大。比如下图有5个样本点：（已经做过预处理，均值为0，特征方差归一）下面将样本投影到某一维

2016-10-31 17:34:43 548

原创朴素贝叶斯

朴素贝叶斯python程序实现贝叶斯公式： P(A,B)=P(A|B)⋅P(B)=P(B|A)⋅P(A)(1.1)P(A,B)=P(A|B)\cdot P(B)=P(B|A)\cdot P(A)\tag{1.1} P(A|B)=P(B|A)⋅P(A)P(B)(1.2)P(A|B)=\frac{P(B|A)\cdot P(A)}{P(B)}\tag{1.2} P(B)=P(A,

2016-10-31 16:52:41 297

原创逻辑回归及梯度下降

实现本文python程序链接实现本文ipython程序链接1、构造似然函数（1）、hθ(x)hθ(x)h_{\theta }(x) 表示y=1的概率 hθ(x)=g(θTx)=11+e−θTx(1.1)(1.1)hθ(x)=g(θTx)=11+e−θTxh_{\theta }(x)=g(\theta^{T}x)= \frac{1}{1+e^{-\theta^{T}x}}\tag{...

2016-10-31 10:32:48 665

原创线性代数相关概念

奇异矩阵奇异矩阵必须为方阵； 2.奇异矩阵的行列式值为0。

2016-10-28 17:01:51 934

howardact的博客