机器学习与数据挖掘算法
文章平均质量分 91
琥珀彩
这个作者很懒,什么都没留下…
展开
-
Convolutional Neural Networks 第 1 周 The basics of ConvNets
习题原创 2020-08-30 22:30:03 · 216 阅读 · 0 评论 -
机器学习中L1 L2正则化项(范式,惩罚项)
1. 什么是L1 L2?正则化项,范式,惩罚项是不同学科范畴的学者的不同叫法,具体如下:在机器学习称作正则化; 统计学领域称作惩罚项; 数学界会称作范数。L1范数:L1范数就是曼哈顿距离,向量中每个元素绝对值的和L2范数:L2就是欧式距离,向量元素绝对值的平方和再开平方2. 在机器学习中L1 L2起到的作用是?有如下比较普遍的解释:L1正则化:可以产生稀疏权值...原创 2020-01-28 19:33:17 · 13968 阅读 · 2 评论 -
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
部分内容转自:https://blog.csdn.net/qq_27009517/article/details/800444310.朴素贝叶斯朴素贝叶斯分类(NBC,Naive Bayes Classifier)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X,求出使得后...原创 2020-01-12 18:50:19 · 5322 阅读 · 0 评论 -
(转)SSE,MSE,RMSE,R-square指标讲解
SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom转载 2017-07-19 15:14:48 · 16774 阅读 · 0 评论 -
线性拟合 相关统计量理解
回归分析法&一元线性回归操作和解释用Excel做回归分析的详细步骤一、什么是回归分析法“回归分析”是解析“注目变量”和“因于变量”并明确两者关系的统计方法。此时,我们把因子变量称为“说明变量”,把注目变量称为“目标变量址(被说明变量)”。清楚了回归分析的目的后,下面我们以回归分析预测法的步骤来说明什么是回归分析法: 回归分析是对具有因果关系的影响因素(自变转载 2017-10-31 14:35:22 · 19811 阅读 · 0 评论 -
线性回归 模型检验
https://wenku.baidu.com/view/1400925eeff9aef8941e068a.htmlhttps://wenku.baidu.com/view/62ea061825c52cc58ad6be0c.html主要是理论理解,对已经拟合好的模型。模型中自变量对预测值的显著能力。及模型对预测值的表示能力。转载 2017-10-31 15:40:01 · 3247 阅读 · 0 评论 -
AUC计算方法理解
一、roc曲线1、roc曲线:接收者操作特征(receiveroperating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。横轴:负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例;(1-Specificity)纵轴:真正类率(true postive rate TPR)灵敏度,Sensi转载 2018-02-01 10:58:06 · 1359 阅读 · 0 评论 -
箱形图box plot 和 小提琴图violin plot
一、箱形图box plot1)箱型图概念箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。2)箱形图包含内容"盒式图"或叫"盒须图""箱形图"boxplot(也称箱须原创 2018-02-02 10:24:37 · 75879 阅读 · 1 评论 -
两个字符串的编辑距离-动态规划方法
概念字符串的编辑距离,又称为Levenshtein距离,由俄罗斯的数学家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A转换成字符串B所需要的最少操作数。其中,字符操作包括:删除一个字符 a) Insert a character插入一个字符 b) Delete a character修改一个原创 2016-10-11 11:51:42 · 30772 阅读 · 20 评论 -
k-means算法讲解
深入浅出K-Means算法 摘要:在数据挖掘中,K-Means算法是一种 cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到,在图的左边有一些点,我们用肉眼可以看出来有四个点群,但是我们怎么通过计算转载 2016-09-09 09:56:20 · 5042 阅读 · 1 评论 -
KNN算法 手写识别 python
【机器学习算法实现】系列文章将记录个人阅读机器学习论文、书籍过程中所碰到的算法,每篇文章描述一个具体的算法、算法的编程实现、算法的具体应用实例。争取每个算法都用多种语言编程实现。所有代码共享至github:https://github.com/wepe/MachineLearning-Demo 欢迎交流指正!(1)kNN算法_手写识别实例——基于Python和Num转载 2015-10-10 09:08:18 · 2049 阅读 · 0 评论 -
7种python 可视化 库的比较(针对同一数据画图)
Comparing 7 Python data visualization tools12 Nov 2015 on data-visualization, data, python, introduction, and introVik Paruchuri Data scientist and developer in Somerville, MA. Working on Data转载 2015-11-16 08:25:44 · 1836 阅读 · 0 评论 -
n-armed bandit greedy-e 算法
n-armed bandit problem的ε-greedy算法1、实验的目的 这个实验的目的是想说明,只要一个action被选择的次数足够多,其Qt(a)就会收敛到Qt*(a),即,该action的action value。而使用ε-greedy算法,能够最终找到action value最大的那个action。2、仿真实验过程转载 2015-12-10 21:14:33 · 3131 阅读 · 0 评论 -
Multi-armed Bandit Experiments
Multi-armed Bandit Experiments 原文 http://analytics.blogspot.com/2013/01/multi-armed-bandit-experiments.html This article de转载 2015-12-15 16:59:09 · 981 阅读 · 0 评论 -
机器学习算法基础概念学习总结
机器学习算法基础概念学习总结 本文章已收录于: 转载自:http://blog.jobbole.com/74716/1.基础概念:(1) 10折交叉验证:英文名是10-fold cross-validation转载 2016-03-10 17:42:25 · 439 阅读 · 0 评论 -
python matplotlib中文显示问题
python matplotlib中文显示问题 Python中的matplotlib仅支持Unicode编码,默认是不显示中文的,如果让其默认显示中文,可进行如下配置:1、在python的安装目录中找到配置文件: %Python_Home%\Lib\site-packages\matplotlib\mpl-data\matplo转载 2016-04-28 12:04:13 · 2966 阅读 · 0 评论 -
一元非线性回归-多项式函数拟合
推导过程: 1. 设拟合多项式为: 2. 各点到这条曲线的距离之和,即偏差平方和如下: 3. 为了求得符合条件的a值,对等式右边求ai偏导数,因而我们得到了:原创 2016-05-11 20:50:24 · 9500 阅读 · 1 评论 -
随机森林(Random Forest)
阅读目录•1 什么是随机森林?•2 随机森林的特点•3 随机森林的相关基础知识•4 随机森林的生成•5 袋外错误率(oob error)•6 随机森林工作原理解释的一个简单例子•7 随机森林的Python实现•8 参考内容1 什么是随机森林? 作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称R原创 2016-06-16 09:40:19 · 12321 阅读 · 1 评论 -
统计数学方法——kd树的构建,kd树的搜索
统计学习笔记(3)——k近邻法与kd树 在使用k近邻法进行分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。由于k近邻模型的特征空间一般是n维实数向量,所以距离的计算通常采用的是欧式距离。关键的是k值的选取,如果k值太小就意味着整体模型变得复杂,容易发生过拟合,即如果邻近的实例点恰巧是转载 2015-10-20 09:48:40 · 1154 阅读 · 0 评论