机器学习算法与原理
文章平均质量分 78
有关机器学习领域的算法与原理的一些博客的汇总
Font Tian
某公司山东分公司研发中心主管。目前主要工作为ABC融合,主要业余目标为发论文,玩开源。
展开
-
利用多项式特征生成与递归特征消除解决特征组合与特征选择问题
项目背景无论是对于什么数据都存在两个非常经典的问题:问题一是,数据与标签之间,数据与数据之间的一些实际关系很难搞清楚。有些时候特征A,特征B可能都与标签存在正向关系。然而实际上的关系却可能是标签与特征A,B的乘积存在实际关系;问题二,在不同机器学习的模型中,特征的最佳选择往往并不一致。比如当模型选择为模型model1的时候,特征可能为特征ABC,而当模型变为model2的时候,最佳特征可能就变为了ACD。为了解决这两个问题,有一个比较成熟的自动化方案可供我们使用。那就是多项式特征生成与自动特征选择。这原创 2020-08-19 19:54:12 · 1056 阅读 · 0 评论 -
理解朴素贝叶斯
前言在对我的数据科学与人工智能小组的新人进行小规模授课时讲课内容整理,有改动和删减.这可能是目前网络上最全面也最简单易懂的有关朴素贝叶斯的文章有关贝叶斯的一些闲谈无论是在生活中还是我们的科学理论中,经常会估计概率.比如,我们计算一下明天下雨的概率,或者中彩票的概率,或者其他概率.概率就是可能性. 但是在人工智能领域关于概率的问题却产生了两个不同的流派,那就是贝叶斯派和频率学派.频率学派认为万物发展原创 2017-12-08 14:41:12 · 2103 阅读 · 3 评论 -
Rosonblatt线性感知器
前叙读前简介机器学习的流派很多,现在比较流行的便是联结学派,其计算的重点在于权重更新,而其它学派比如贝叶斯学派,基于统计学,进化学派则注重结构学习.本篇博客以线性感知器为基础,将会对神经网络与一些机器学习算法进行介绍,如果你只想简单的了解,那么可以浏览一遍即可,当然你也可以花费些时间读这篇文章,那么你也可以受益许多.神经网络与联结学派神经网络就是联结学派的”原创 2017-11-17 12:02:18 · 885 阅读 · 0 评论 -
Python自定义:粒子群优化算法
#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:fonttian @file: 粒子群优化算法.py@time: 2017/10/15"""# References from : http://blog.csdn.net/kunshanyuz/article/details/63683145import numpy as npim原创 2017-10-16 20:58:59 · 3638 阅读 · 0 评论 -
Deap: python中的遗传算法工具箱
也就是设计主程序的地方,按照官网给的模式,我们要早此处设计其他参数,并设计迭代和取值的代码部分,并返回我们所需要的值.''''''print(" Evaluated %i individuals" % len(pop)) # 这时候,pop的长度还是300呢要注意的地方就是,官网中给出的Overview代码中有一行代码是错误的,需要把一个数据类型(map)转换为list.原创 2017-10-16 19:35:33 · 23020 阅读 · 10 评论 -
sklearn中的Pipline(流水线学习器)
简介管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。管道机制(也有人翻译为流水线学习器?这样翻译可能更有利于后面内容的理解)在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使用。使用管道机制可以大幅度减少代码量.总的来说这是一个非常实用而有趣的方法注意:管道机制更像是编程技巧的创新,而非算法的创新。 通原创 2017-10-14 14:37:27 · 5760 阅读 · 0 评论 -
deap实战_2017中国数学建模大赛_B题_第二题
简介原问题是给出一个定价策略,证明其相较于原来定价策略的优点.那么首先我们第一题第二问得到了一个 价格-完成率 函数,此时我们需要的是给出一个新的定价函数,并利用遗传算法得到最佳参数.思路编码–>我们需要编码的是定价函数的参数评价函数—->将编码输入的定价函数得到价格,然后将价格输入之前得到的 价格-完成率 函数得到完成率求解的目标应当是最大化完成率为了控制成本需要对价格进行一定的限制,避免原创 2017-10-16 20:37:07 · 5076 阅读 · 4 评论 -
OpenCV官方文档 理解k - means聚类
理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等。理论我们将这个处理是常用的一个例子。t恤尺寸问题考虑一个公司要发布一个新模型的t恤。 显然他们将不得不制造模型满足人们各种尺寸的大小不同。 所以公司的数据甚至身高和体重,并把它们放到图,如下:公司无法为所有的尺寸制作衣服。 相反,他们把人分为翻译 2017-05-16 19:32:29 · 1940 阅读 · 0 评论 -
4.2 Tensorflow笔记:池化函数
池化层的输入一般来源于上一个卷积层,主要作用是提供了很强的鲁棒性(例如max-pooling是取一小块区域中的最大值,此时若此区域中的其他值略有变化,或者图像稍有平移,pooling后的结果仍不变),并且减少了参数的数量,防止过拟合现象的发生,同时参数的减少对于计算而言也有一定的帮助。其中,input为输入,conv为卷积层,由卷积核构成,pool为池层,由池化函数构成最后是全连接层与输出层,其负责对卷积层提取的特征进行处理以获得我们需要的结果。。原创 2017-08-04 01:16:22 · 14699 阅读 · 5 评论 -
一文弄懂神经网络中的反向传播法
最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果转载 2017-06-29 11:25:28 · 2264 阅读 · 1 评论 -
梯度下降与delta法则
delta法则尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向转载 2017-06-29 13:41:01 · 2482 阅读 · 0 评论 -
神经网络为什么要归一化
作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。 无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也转载 2017-07-01 14:56:05 · 10658 阅读 · 0 评论 -
统计学习方法第四章朴素贝叶斯法-李航
第4章 朴素贝叶斯法朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。4.1 朴素贝叶斯法的学习与分类基本方法朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布P(X,Y)。转载 2017-04-26 23:50:38 · 2416 阅读 · 0 评论 -
朴素贝叶斯分类器(Navie Bayesian Classifier)中的几个要点(一)
关键字:拉普拉斯修正(Laplacian correction)懒惰学习(lazy leanring)对数似然(log-likelihood)拉普拉斯修正(Laplacian correction)朴素贝叶斯分类器的训练:基于训练集D 来估计类先验概率P(y)基于训练集D 为每个属性估计条件概率P(x|y)因此当在某个训练集中,样本的一条特征值 EV 出现概率为 0 时,则会使计算的先原创 2017-05-18 13:20:45 · 2909 阅读 · 0 评论 -
机器学习常见算法汇总
原文地址:http://www.ctocio.com/hotnews/15919.html偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人转载 2017-07-22 20:00:22 · 1040 阅读 · 0 评论