机器学习基础汇总
文章平均质量分 85
有关机器学习的比较基础的博客的汇总
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
Ubuntu 18.04 独显和集显切换
Ubuntu 18.04 独显和集显切换查看自己的显卡ubuntu-drivers devices #查看自己的显卡及可以安装的驱动版本== /sys/devices/pci0000:00/0000:00:01.0/0000:01:00.0 ==modalias : pci:v000010DEd00001BA1sv00001558sd000067C1bc03sc00i00vendo...原创 2020-02-12 15:04:18 · 11446 阅读 · 3 评论 -
数据科学-通过数据探索了解我们的特征
简介对于数据科学而言,我们要做的第一件事情,必然是了解我们的数据.而在数据探索期间,pandas和matplotlib 则是我们进行数据探索的利器.本文主要分为三个部分,第一部分是利用pandas进行一些基础的数据分析,第二部分是利用pandas自身功能进行一些有用的数据探索,最重要的是第三部分,利用pandas与matplotlib ,scikit-learn中的工具以及数据与算法本身的一些特性对原创 2017-10-10 07:41:38 · 2377 阅读 · 0 评论 -
机器学习数据集
前言数据集算是比较重要的学习资料了吧,在这里汇总一些好用的数据集以便使用, 关于一些内容可以参考一下知乎的提问UCI常用数据集UCI 一个不错的数据集下载网站 此处介绍几个点击;想比较高的数据集,后面有下载和存储的代码以及有关问题的说明.使用方式点击官方网站,你可以看到以下内容 可以看到右边有两个排行榜,最右边的是历史点击率的排行榜,位于该榜左边的也就是网页中间的是最新捐赠原创 2017-12-08 09:26:53 · 10942 阅读 · 0 评论 -
sklearn中的回归决策树
sklearn中DecisionTreeRegressor的主要参数与分类决策树差异不大.唯一不太一样的是,在回归决策树中只实现了优化的gini决策树,而无法使用基于信息熵的决策树关于超参数的介绍,我们可以直接借用在分类决策树中的介绍在sklearn中我们可以用来提高决策树泛化能力的超参数主要有max_depth:树的最大深度,也就是说当树的深度到达max_depth的时候无论还有多少可以分支的特征,决策树都会停止运算.原创 2017-12-17 14:14:12 · 17674 阅读 · 2 评论 -
sklearn中的朴素贝叶斯算法
sklearn中的朴素贝叶斯分类器之前理解朴素贝叶斯中的结尾对sklearn中的朴素贝叶斯进行了简单的介绍. 此处对sklearn中的则对sklearn中的朴素贝叶斯算法进行比较详细介绍.不过手下还是对朴素贝叶斯本身进行一些补充.朴素贝叶斯算法朴素贝叶斯算法的数学基础都是围绕贝叶斯定理展开的,因此这一类算法都被称为朴素贝叶斯算法.朴素贝叶斯的分类原理是通过对象的先验概率,利用贝叶斯公式计算出后验概原创 2017-12-17 13:03:32 · 6354 阅读 · 15 评论 -
sklearn中的分类决策树
决策树决策树简介决策树是一种使用if-then-else的决策规则的监督学习方法.其三要素为,枝节点,叶节点与分支条件,同时为了减少过拟合还有剪枝方法 为了便于记忆,可以称其为一方法三要素决策树的优势便于理解和解释。树的结构可以可视化出来。训练需要的数据少。其他机器学习模型通常需要数据规范化,比如构建虚拟变量和移除缺失值,不过请注意,这种模型不支持缺失值。由于训练决策树的数据点的数量导致了决原创 2017-12-17 11:55:17 · 7969 阅读 · 4 评论 -
机器学习中的数据集划分问题
留出法(hold-out)使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据缺点二:容易过拟合,且矫正方式不方便这时,我们需要使用另外一种分割方式-交叉验证 或者 留P法(leave P out)原创 2018-01-31 17:07:55 · 8216 阅读 · 0 评论 -
Sklearn中的CV与KFold详解
关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍CV%matplotlib inlineimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import datasetsfrom sklearn import s...原创 2018-01-31 17:35:42 · 33867 阅读 · 1 评论 -
Hyperopt TypeError: 'generator' object is not subscriptable
BUG最近复用以前的代码,结果发现了一个bug,bug如下: File "/home/michael/work/oanda/src/oanda/trend_prediction/find_optimal_model.py", line 124, in <module> main() File "/home/michael/work/oand...原创 2018-01-09 14:34:16 · 3420 阅读 · 6 评论 -
Python实现 灰色关联分析 与结果可视化
灰色系统理论提出了对各子系统进行灰色关联度分析的概念,意图透过一定的方法,去寻求系统中各子系统(或因素)之间的数值关系。因此,灰色关联度分析对于一个系统发展变化态势提供了量化的度量,非常适合动态历程分析。原创 2018-06-07 13:21:45 · 54547 阅读 · 143 评论 -
R语言简介与案例
R语言简介与案例(本文为一次向计算机零基础人群演讲时,应要求所写演示内容)一. R语言是什么? 如果说统计学是人类历史上的一次伟大跨越,那么R语言就是就是帮助统计学家走的更远的一双翅膀.R语言是什么?R语言就是一门帮助统计学家在计算机上进行数学计算的语言,有了它统计学家就可以与计算机更好地互动,并帮助统计学家更快更好的完成本专业的一些事情.不过随着时代的发展,R语言作为一门计算...原创 2018-06-22 09:46:13 · 5552 阅读 · 0 评论 -
Rosonblatt线性感知器
前叙读前简介机器学习的流派很多,现在比较流行的便是联结学派,其计算的重点在于权重更新,而其它学派比如贝叶斯学派,基于统计学,进化学派则注重结构学习.本篇博客以线性感知器为基础,将会对神经网络与一些机器学习算法进行介绍,如果你只想简单的了解,那么可以浏览一遍即可,当然你也可以花费些时间读这篇文章,那么你也可以受益许多.神经网络与联结学派神经网络就是联结学派的”原创 2017-11-17 12:02:18 · 885 阅读 · 0 评论 -
深入浅出统计学 第四五章 离散概率的计算与分布
离散概率计算与分布的应用在原书的这两章离散概率计算与分布的应用,重点在于概念的理解和公式的记忆. 而对于整本书而言,四五六章其实都作为第七章:三种离散概率分布,第八,九章,正态分布(连续概率分布之一)做铺垫. 主要包括以下内容: 1. 期望与方差的计算 2. 线性变换与独立观察值变换有关内容 3. 贝叶斯定理其中特别要注意的1,2点,在之后的内容中都将频繁使用这些内容. 而贝叶...原创 2018-07-02 20:31:15 · 1461 阅读 · 0 评论 -
第八九章 正态分布与超越正态
正态分布对于正态分布,首先补充其理论知识,然后我们根据&lt;深入浅出统计学&gt;中的计算步骤,进行编程实现.正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物...原创 2018-09-05 21:51:08 · 1452 阅读 · 0 评论 -
Maximal Information Coefficient (MIC)最大互信息系数详解与实现
MICMIC 即:Maximal Information Coefficient 最大互信息系数。使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度。MIC是一种优秀的数据关联性的计算方式。本篇文章将会详细介绍MIC的算法原理,优缺点以及Python的具体实现方式,并给出一个可视化方案。互信息?互信息(Mut...原创 2018-12-23 22:32:43 · 36152 阅读 · 60 评论 -
sklearn中的Pipline(流水线学习器)
简介管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。管道机制(也有人翻译为流水线学习器?这样翻译可能更有利于后面内容的理解)在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。使用管道机制可以大幅度减少代码量.总的来说这是一个非常实用而有趣的方法注意:管道机制更像是编程技巧的创新,而非算法的创新。 通原创 2017-10-14 14:37:27 · 5760 阅读 · 0 评论 -
机器学习实战-数据探索(变量变换、生成)
原文链接:点击打开链接《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》 机器学习实战-数据探索(缺失值处理) 机器学习实战-数据探索(异常值处理) 上面三篇文章介绍了数据探索的前五步,机器学习更多内容可以关注github项目:machine learning1 变量变换1.1 什么是变量变换?在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立...转载 2017-10-09 20:46:51 · 1497 阅读 · 0 评论 -
Python ML环境搭建与学习资料推荐
python下载anconda更新pip源 参考文章一: Python类库三两事 - 一次解决:http://blog.csdn.net/FontThrone/article/details/76560698 参考文章二:Anaconda多环境多版本python配置指导http://blog.csdn.net/fontthrone/article/details/76560293IDE下原创 2017-08-10 10:51:01 · 1695 阅读 · 0 评论 -
朴素贝叶斯法分类器的Python3 实现
本篇文章是我在读了李航的<统计学习方法>后手写的算法实现之一 原理请参考统计学习方法第四章朴素贝叶斯法-李航代码, NaiveBayesMethod 的内部计算方式现在为数值计算, 符号计算的代码已经注释,如果需要请手动修改 朴素贝叶斯法分类器 当lam=1 时,类分类方式为为贝叶斯估计 实现了拉普拉斯平滑,以此避免出现要计算的概率为0的情况,以免计算错误的累积 具体原理请原创 2017-04-26 23:54:18 · 3643 阅读 · 0 评论 -
Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握
前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs原创 2017-06-06 17:16:12 · 25229 阅读 · 16 评论 -
基于贝叶斯的垃圾邮件过滤器 JAVA
<span style="font-size: 18px;">package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai转载 2017-07-01 22:53:50 · 4223 阅读 · 9 评论 -
数据标准化的方法与意义
与离差标准化的不同之处在于,离差标准化仅仅仅仅对原数据的的方差与均差进行了倍数缩减,而标准差标准化则使标准化的数据方差为一。5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)通过 " /log10(max) " 值得方式,可以保证所有样本能够正确的映射到[0,1]空间,指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.问题: 数据必须大于零,大于零的函数将会被映射到[-1,0]上。含义: max : 样本最大值;原创 2017-07-01 16:28:54 · 57778 阅读 · 7 评论 -
OpenCV的k - means聚类 -对图片进行颜色量化
OpenCV的k - means聚类目标学习使用cv2.kmeans()数据聚类函数OpenCV理解参数输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列。 nclusters(K):数量的集群需要结束 标准:这是迭代终止准则。 当这个标准是满足,算法迭代停止。 实际上,它应该是一个元组的三个参数。 他们是( ...原创 2017-05-16 20:08:18 · 8179 阅读 · 0 评论 -
机器学习常见算法汇总
原文地址:http://www.ctocio.com/hotnews/15919.html偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人转载 2017-07-22 20:00:22 · 1040 阅读 · 0 评论 -
朴素贝叶斯分类器(Navie Bayesian Classifier)中的几个要点(一)
关键字:拉普拉斯修正(Laplacian correction)懒惰学习(lazy leanring)对数似然(log-likelihood)拉普拉斯修正(Laplacian correction)朴素贝叶斯分类器的训练:基于训练集D 来估计类先验概率P(y)基于训练集D 为每个属性估计条件概率P(x|y)因此当在某个训练集中,样本的一条特征值 EV 出现概率为 0 时,则会使计算的先原创 2017-05-18 13:20:45 · 2909 阅读 · 0 评论 -
统计学习方法第四章朴素贝叶斯法-李航
第4章 朴素贝叶斯法朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。4.1 朴素贝叶斯法的学习与分类基本方法朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布P(X,Y)。转载 2017-04-26 23:50:38 · 2415 阅读 · 0 评论 -
神经网络为什么要归一化
作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。 无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也转载 2017-07-01 14:56:05 · 10658 阅读 · 0 评论 -
梯度下降与delta法则
delta法则尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向转载 2017-06-29 13:41:01 · 2482 阅读 · 0 评论 -
一文弄懂神经网络中的反向传播法
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果转载 2017-06-29 11:25:28 · 2264 阅读 · 1 评论 -
OpenCV官方文档 理解k - means聚类
理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等。理论我们将这个处理是常用的一个例子。t恤尺寸问题考虑一个公司要发布一个新模型的t恤。 显然他们将不得不制造模型满足人们各种尺寸的大小不同。 所以公司的数据甚至身高和体重,并把它们放到图,如下:公司无法为所有的尺寸制作衣服。 相反,他们把人分为翻译 2017-05-16 19:32:29 · 1940 阅读 · 0 评论