关闭

sklearn中的Pipline(流水线学习器)

简介管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。管道机制(也有人翻译为流水线学习器?这样翻译可能更有利于后面内容的理解)在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。使用管道机制可以大幅度减少代码量.总的来说这是一个非常实用而有趣的方法注意:管道机制更像是编程技巧的创新,而非算法的创新。 通...
阅读(258) 评论(0)

数据科学-通过数据探索了解我们的特征

简介对于数据科学而言,我们要做的第一件事情,必然是了解我们的数据.而在数据探索期间,pandas和matplotlib 则是我们进行数据探索的利器.本文主要分为三个部分,第一部分是利用pandas进行一些基础的数据分析,第二部分是利用pandas自身功能进行一些有用的数据探索,最重要的是第三部分,利用pandas与matplotlib ,scikit-learn中的工具以及数据与算法本身的一些特性对...
阅读(70) 评论(0)

机器学习实战-数据探索(变量变换、生成)

《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》机器学习实战-数据探索(缺失值处理)机器学习实战-数据探索(异常值处理) 上面三篇文章介绍了数据探索的前五步,机器学习更多内容可以关注github项目:machine learning 1 变量变换 1.1 什么是变量变换? 在数据建模中,变换是指通过函数替换变量。 例如,通过平方/立方根或对数x替换变量x是一个变换...
阅读(76) 评论(0)

Python ML环境搭建与学习资料推荐

python 下载anconda 更新pip源 参考文章一: Python类库三两事 - 一次解决:http://blog.csdn.net/FontThrone/article/details/76560698 参考文章二:Anaconda多环境多版本python配置指导http://blog.csdn.net/fontthrone/article/details/76560293 IDE 下...
阅读(291) 评论(0)

机器学习常见算法汇总

原文地址:http://www.ctocio.com/hotnews/15919.html 偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人...
阅读(541) 评论(0)

基于贝叶斯的垃圾邮件过滤器 JAVA

package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai...
阅读(1315) 评论(0)

数据标准化的方法与意义

含义数据标准化和归一化存在区别 数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上. 数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.意义 求解需要 比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围除此之外,最明显的是在神经网络中的影响,主要有四个层面有利于初始...
阅读(1555) 评论(0)

神经网络为什么要归一化

作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37 ========================这里是分割线============================ 1.数值问题。        无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也...
阅读(1175) 评论(0)

梯度下降与delta法则

delta法则 尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。 因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。  delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向...
阅读(1150) 评论(0)

一文弄懂神经网络中的反向传播法

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果...
阅读(1153) 评论(0)

Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握

前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs...
阅读(5062) 评论(1)

朴素贝叶斯分类器(Navie Bayesian Classifier)中的几个要点(一)

关键字: 拉普拉斯修正(Laplacian correction) 懒惰学习(lazy leanring) 对数似然(log-likelihood) 拉普拉斯修正(Laplacian correction)朴素贝叶斯分类器的训练: 基于训练集D 来估计类先验概率P(y) 基于训练集D 为每个属性估计条件概率P(x|y) 因此当在某个训练集中,样本的一条特征值 EV 出现概率为 0 时,则会使计算的先...
阅读(1474) 评论(0)

OpenCV的k - means聚类 -对图片进行颜色量化

OpenCV的k - means聚类 目标 学习使用cv2.kmeans()数据聚类函数OpenCV 理解参数 输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列。 nclusters(K):数量的集群需要结束 标准 : 这是迭代终止准则。 当这个标准是满足,算法迭代停止。 实际上,它应该是...
阅读(1324) 评论(0)

OpenCV官方文档 理解k - means聚类

理解k - means聚类 目标 在这一章中,我们将了解k - means聚类的概念,它是如何工作等。 理论 我们将这个处理是常用的一个例子。 t恤尺寸问题 考虑一个公司要发布一个新模型的t恤。 显然他们将不得不制造模型满足人们各种尺寸的大小不同。 所以公司的数据甚至€™身高和体重,并把它们放到图,如下: 公司无法为所有的尺寸制作衣服。 相反,他们把人分为...
阅读(1302) 评论(0)

朴素贝叶斯法分类器的Python3 实现

本篇文章是我在读了李航的后手写的算法实现之一 原理请参考统计学习方法第四章朴素贝叶斯法-李航代码, NaiveBayesMethod 的内部计算方式现在为数值计算, 符号计算的代码已经注释,如果需要请手动修改 朴素贝叶斯法分类器 当lam=1 时,类分类方式为为贝叶斯估计 实现了拉普拉斯平滑,以此避免出现要计算的概率为0的情况,以免计算错误的累积 具体原理请...
阅读(1457) 评论(0)

统计学习方法第四章朴素贝叶斯法-李航

第4章 朴素贝叶斯法 朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。 4.1 朴素贝叶斯法的学习与分类 基本方法 朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布 P(X,Y)。...
阅读(1314) 评论(0)
    个人资料
    • 访问:252978次
    • 积分:3064
    • 等级:
    • 排名:第11855名
    • 原创:93篇
    • 转载:20篇
    • 译文:2篇
    • 评论:35条
    博客专栏
    最新评论