ShiZhanfei-CSDN博客

原创机器学习朴素贝叶斯算法数学过程及Python实现:女生说这话是不是对你有意思

一、文本分析的需求有时，我们会有分析文本的需求，如分析邮件是否为垃圾邮件。进行文本分析时，首先，我们需要一个特征向量用来表征一段文本，即把文本的特征映射为一个向量。特征向量的创建往往可以通过一个几百词到几万词的字典，通过依次遍历字典中的字符串是否包含与文本中，若包含则该位置为1，不包含为0，以此创建特征向量。如，字典有10000个字符串，包括&quot;a&quot;,“abstract”…“buy”…“sale”...

2018-12-21 11:12:27 303

原创机器学习高斯判别分析的数学原理及Python简单可视化实现

一、生成学习算法判别学习算法，为对整个样本集进行总体建模（即对P{y|x}建模，给定特征时输出某种结果的概率），训练得到参数后对给定的输入代入参数得到输出。在分类问题中，有一类算法叫生成学习算法，会对不同的类别分别进行建模（即对P{x|y}建模，给定结果时显示某种特征的概率)，然后把输入分别用不同类别模型进行处理，看最符合哪个。使用生成模型进行输出分类(以0-1分类为例）时，往往还会计算P{...

2018-12-16 15:15:33 840

原创机器学习牛顿方法与广义线性模型的数学原理

一、牛顿方法梯度下降数学上较清晰地给出了迭代参数的方法。但有一种通常情况下比它更快的算法，称为牛顿方法。牛顿方法的收敛速度理论上为二次收敛，即迭代前误差为0.1量级，迭代一次后误差就为0.01量级，再迭代一次0.0001，再一次0.0000001，即迭代速度非常快。但是，这仅仅理论上接近正确值时成立，实际上会因为一些复杂的数学原因没有这么快，但也比梯度下降快。牛顿方法适用于Logistic回归和...

2018-12-05 21:11:25 521

原创机器学习局部加权回归及Python简单实现

一、欠拟合与过拟合加入对给定的一组样本xi和真实值yi，假如合适的特征应选为x1=xi，x2=xi2，预测值hθ(xi)h\theta(x_i)hθ(xi)=∑i=0i=2θixi\sum_{i=0}^{i=2}\theta_i x_i∑i=0i=2θixi=θ0+θ1xi+θ2xi2\theta_0+\theta_1 x_i+\theta_2 x_i^2θ0+θ1xi+θ2xi...

2018-12-02 17:33:50 1760

原创机器学习 logistic回归的数学原理及Python简单实现

一、logistic回归的使用场景分类：输出为离散。如垃圾邮件过滤系统中，垃圾邮件预测值只能为是或否。线性回归适用与连续性变量的预测，这是因为当添加一个新的与其他样本差异较大的样本时，线性回归曲线可能会变化较大，而输出值由于是离散的，要么0要么1，因此预测值很可能会剧烈变化，产生较大的误差。（连续变量变化不是太大，如从0.1变到0.2，但离散变量可能就从非垃圾邮件突然变垃圾邮件了，产生这个变化的...

2018-12-02 15:50:27 514

原创机器学习梯度下降算法数学原理（以多元线性回归为例）及Python实现

设特征为x1,x2…xn，模型为一个线性模型，即预测值与各特征成线性关系。模型的损失函数loss（与真值的差距）即为训练集各值减去训练值的平方求和再乘1/2，为一个多元函数。先寻找一个初始点（可以是零点也可以是一个随机生成的点），在该点求梯度。由微积分知识：多元函数的梯度的方向是多元函数下降最快的方向，比任何方向导数都快。因此初始点往梯度方向移动即为往下降最快方向移动。最终，初始点将移动到损失函...

2018-11-25 17:44:41 995

原创关于区块链入门学习的一些思考

关于区块链安全性的一些思考区块链中广泛使用的加密算法为非对称加密和哈希加密。非对称加密的算法原理主要基于大质数分解极为困难，会生成一把可以发送出去的公钥（public key）和一把只能保存在自己手中的私钥（private key）。用公钥加密的消息只能用私钥解密，用私钥加密的消息只能用公钥解密，加密和解密不是一把密钥是此算法“非对称”的由来。而哈希加密的特定则在于无法倒推，用哈希加密的消息...

2018-11-13 21:59:59 644 4

ShiZhanfei的博客