蜗牛小红-CSDN博客

原创三种朴素贝叶斯的参数估计

之前学习西瓜书的时候，记录过朴素贝叶斯的学习笔记。由贝叶斯判定准则可知，我们可以使用最大后验估计来获取样本的类别。而贝叶斯分类器估计后验概率的问题可转换为估计类先验概率和类条件概率。对于朴素贝叶斯，假设属性条件性独立，因此核心就是估计类先验概率和各属性的类条件概率。尽管朴素贝叶斯分类器的假设过于简化，但是有些实际情况中（文本分类和垃圾邮件过滤）表现良好。不同的朴素贝叶斯分类器的区别在于对属性的类...

2020-10-10 16:31:00 2381

原创感知机

感知机模型感知机的思想是在特征空间找到一个分离超平面，能将二元分类的数据完全的分隔开。使得超平面一侧的数据点分类为一类，另一侧的数据点分类为另一侧。当数据集线性可分时，感知机是收敛的，也就是说肯定能找到一个超平面将数据分隔开。数学模型表示如下：f(x)=sign(wTx+b)f(x)=sign(w^Tx+b)f(x)=sign(wTx+b)其中sign为符号函数，当自变量大于等于0时输出取1，...

2020-04-06 22:37:55 225

原创信息熵、条件熵、信息增益

信息熵信息熵是度量离散随机变量的不确定性的指标。不确定性越大，信息熵的值越大。公式如下：H(X)=−∑i=1np(xi)log⁡2p(xi)H(X)=-\sum_{i=1}^n p(x_i) \log_2 p(x_i)H(X)=−i=1∑np(xi)log2p(xi)其中：????(????????)代表随机事件????????的概率。单看公式太抽象，下面逐步介绍信息熵的来源：信息量信息量：是对信息的度量。对于...

2020-03-29 16:05:49 3134

原创 python--dict使用

1.生成dict1.1键值对生成{'a':1, 'b':2}dict1 = {i:i*10 for i in range(3)}print(dict1)"""输出：{0: 0, 1: 10, 2: 20}"""1.2两个列表生成dict使用zip函数, 把key和value的list组合在一起, 再转成字典dict2 = dict(zip(['a','b'], [1,2]...

2020-02-19 15:29:00 335

原创周志华《机器学习》系列笔记——神经网络（5）

5.1神经元模型本书采用目前使用得最广泛的一种对神经网络的定义，即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”神经网络中最基本的成分是神经元模型，即上述定义中的简单单元。“M-P神经元模型”，神经元接收到来自其他n个神经元传递过来的信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比...

2020-02-07 14:54:34 2304

原创周志华《机器学习》系列笔记——决策树（4）

4.1基本流程决策树基于树结构来进行决策，决策过程的最终结论对应了我们所希望的判定结果，决策过程的每个判定问题是对某个属性的测试。决策树是一种非参数的监督学习方法，它能从数据中学习出一系列规则，并用树结构呈现出来。一般来说，一棵决策树包含一个根节点、若干个内部节点和若干个叶节点。根节点对应样本全集，从根节点到叶节点的路径对应了一个判定测试序列。根节点和内部节点包含的样本集会根据测试结果划分到...

2020-02-05 14:55:10 717

原创周志华《机器学习》系列笔记——线性模型（3）

3.1基本形式线性模型试图学得一个通过属性的线性组合来进行预测的函数。线性模型形式简单、易于建模，但却蕴含着机器学习重要的基本思想，许多功能更强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。并且线性模型有很好的可解释性，属性的系数代表了属性的重要性。一般用向量形式写成：f(x)=wTx+b f(x) = w^Tx+bf(x)=wTx+b3.2线性回归3.2.1书本线性...

2020-02-04 10:28:27 874

原创周志华《机器学习》系列笔记——模型评估与选择（2）

2.1经验误差与过拟合错误率error rate：分类错误的样本数占总样本数的比例精度：分类正确的样本数占总样本数的比例误差error：学习器的实际预测输出与真实输出之间的差异训练误差training error/经验误差empirical error：学习器在训练集上的误差泛化误差generalization error：学习器在新样本上的误差机器学习的目的，是得到泛化能力高的模型，...

2020-01-17 16:55:38 1388

原创 Python 持久化模块pickle和joblib

在程序运行的过程中，所有的变量都是在内存中，有时候希望将对象存储下来。我们把对象从内存中变成可存储或传输的过程称之为序列化，在Python中叫pickling。picklePython提供两个模块来实现序列化：cPickle和pickle。这两个模块功能是一样的，区别在于cPickle是C语言写的，速度快，pickle是纯Python写的，速度慢。将对象保存为字符串import ...

2019-06-11 10:53:51 2442

原创学习Keras基础--模型

Keras基础： keras中文官方文档深度学习：Keras入门(一)之基础篇模型Keras有两种类型的模型，序列模型和函数式模型，函数式模型应用更为广泛，序贯模型是函数式模型的一种特殊情况。1.序列模型序列模型是多个网络层的线性堆叠，也就是“一条路走到黑”。这种模型各层之间是依次顺序关系的线性关系。 1.1构造模型：增加layer...

2018-06-22 15:26:22 216

原创初识django--遇到的问题及解决办法

1.web访问的实质（1）客户端发送请求到web服务器（2）web服务器返回html页面给客户端第一次接触web，没基础。创建django项目全靠看教程https://www.cnblogs.com/geekmao/p/7612430.html2.rest_framework问题测试web时，报错：django.template.exceptions.T...

2018-06-21 18:14:19 2255

原创基于taobao的验证码识别

验证码介绍现在的验证码主要分为4类：识图验证码、计算验证码、滑块验证码、语音验证码。本文只针对taobao的识图验证码进行识别。目标验证码如下：我们可以看到这类验证码都是变形、粘连、大小不一、位置不固定的，不再像以前的可分割的验证码了，也就增加了机器识别的难度。这类粘连验证码就是本文主要的研究对象。识别步骤（1）图片预处理灰度化、二值化、去噪...

2018-06-15 18:10:52 1868 4

dxh1994的博客