机器学习
feiyang5260
需要加强学习的码农
展开
-
关联规则学习
1、什么是关联规则学习关联规则学习(association rule learning)又叫关联分析(association analysis),即从大规模数据集中寻找物品间隐含的关系。如尿布与啤酒的例子,据报道,一家超市发现男人们会在周四买尿布和啤酒。关联分析的最终目标就是要找出关联规则。2、与关联规则学习相关的几个名词事务:每一条交易称为一个事务。项:交易中的每项物品,如酸奶,啤酒...转载 2020-04-27 21:11:02 · 1476 阅读 · 0 评论 -
集成学习:boosting与bagging算法
1、集成学习1.1、基本概念所谓集成学习(ensemble learning),即多个机器学习器来完成学习任务。也就是我们常说的"博采众长",它可用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等,可以说所有机器学习领域都可以看见集成学习的身影。从下图,我们可以对集成学习思想做一个概括,拿分类来说,对于训练集数据,通过训练若干个个体弱分类器,通过一定的结合策略,就可以最终形...转载 2020-04-05 12:14:29 · 905 阅读 · 0 评论 -
笔记之机器学习常见算法对比
knn算法:优点:模型简单,计算精度高,对异常值不敏感;缺点:计算复杂,效率低决策树:计算快,输出结果易理解,对中间缺失值不敏感,缺点:产生过拟合朴素贝叶斯:较少数据下仍能获得较好效果,可以处理多类别问题;缺点:特征之间可能不是完全独立; 通过先验和数据来决定后验的概率从而决定分类,会存在误差(先验概率如计算样本总数据中,1类概率,0类的概率); 对输入数...原创 2020-03-26 22:25:06 · 384 阅读 · 0 评论 -
归一化,标准化和正则化的区别
1、归一化把数据映射到0-1范围内,使得处理过程更加便捷;提高不同数据特征之间的可比性,比如假设有身高,体重两个特征,此时假设用KNN算法计算其欧氏距离的话,可以先考虑将其归一化处理,这样比较更加便捷与科学。2、是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过0-1均值标准化后,更利于使用标准正太分布的性质,进行处理;3、正则化...转载 2020-03-19 21:04:38 · 4232 阅读 · 0 评论 -
逻辑回归笔记
1.分类与回归对于输入与输出变量均为连续的预测问题为回归问题。而输入连续,输出值离散的的预测问题成为分类问题。逻辑回归本质上是分类,只不过是用到了回归的思想解决分类的问题。比如预测某一地区房价,为回归问题。而预测是否得癌症,这样的问题成为分类问题。2.线性回归假设现在有一些数据点,我们用一条直线对这些点进行拟合,这个拟合的过程就称作线性回归,这为回归问题。3.逻辑回归...转载 2019-10-24 21:58:47 · 594 阅读 · 0 评论 -
SVD奇异值分解笔记
奇异值分解(Singular Value Decomposition)是机器学习领域广泛应用的算法,可以用于降维,推荐系统,自然语言处理等领域。1、SVD定义基本公式:如上U,V是酉矩阵,酉矩阵定义为: 为非主对角线上的元素值都为0,主对角线上的每个元素都称为奇异值。2、特征值与特征向量 Ax=λx (...原创 2020-03-08 11:16:52 · 971 阅读 · 0 评论 -
RNN循环神经网络笔记
转自:https://blog.csdn.net/qq_23225317/article/details/77834890一、RNN概述(Recurrent Neural Network)1.RNN怎么来的对于一般神经网络、CNN(Convolutional Neural Networks)卷积神经网络,他们的输出都只是考虑了前一个输入的影响,而不考虑其他时刻输入的影响,比如简单的猫,...转载 2019-12-04 20:40:10 · 752 阅读 · 0 评论 -
Python计算信息熵、条件熵、信息增益例子
fromhttps://www.jianshu.com/p/25c8bbd1bfa01、计算信息熵首先我们知道信息熵公式为:假设在没给任何天气信息的情况下,根据历史数据,得到今天打球的概率为9/14,不打概率为5/14,根据信息熵公式计算得到python实现2、计算条件熵和信息增益假定我们根据天气来决定是否打球,四大特征依次为:天气,温度,湿度,风度,如下图...转载 2019-11-09 10:09:02 · 6448 阅读 · 4 评论 -
决策树简介
1、什么是决策树我们可能玩过这种游戏,一个人脑海中想一个词,然后大家向他提问,这个人只能回答是或者不是,最后逐步缩小范围,猜出这个词,这个游戏跟决策树的工作原理类似。如下面从https://blog.csdn.net/bravery_again/article/details/81104914中的例子:别人给你介绍对象的时候,依据一些特点去判断,这个过程就形成了一棵树,如下图,哈哈:...转载 2019-11-03 16:25:52 · 800 阅读 · 0 评论 -
朴素贝叶斯笔记
1.什么是朴素贝叶斯朴素贝叶斯是基于概率论的一种分类方法,即基于贝叶斯定理和假设"特征条件互相独立"(即"朴素"的含义)贝叶斯公式如下:这里B指分类,A指特征,即:1.1先验概率:根绝以往经验和分析得到的概率,如上面的P(B),P(A)1.2 条件概率条件概率是指在事件Y=y已经发生的条件下,事件X=x发生的概率,可以表述为:(式1)这里联合概率P(X=x...转载 2019-10-27 14:47:05 · 189 阅读 · 0 评论 -
依存文法是什么
自然语言处理领域关注的结构文法理论主要分为:短语结构文法(Phase-Structure Grammer)和依存文法(Dependency Grammer)。所谓依存文法即:集中关注的是词与其他词的关系。依存关系是一个中心词与它的依赖之间的二元对称关系。一个句子的中心通常是动词,所有其他词要么依赖于中心词,要么依赖路径与它联通。依赖关系表示是一个加标签的有向图,如下图所示为一个依存关系图,...转载 2019-07-25 21:04:15 · 1893 阅读 · 0 评论 -
机器学习笔记之scikit-learn入门
1.Skikit-learn是什么Scikit-learn是专门面向机器学习的Python开源框架,是机器学习中常用的库,它实现了各种成熟的算法,并且易于安装与使用。scikit-learn中包含了大部分机器学习的方法,如分类,回归,无监督,数据降维,数据预处理等等。可通过pip命令安装pip install -U scikit-learn安装成功验证from skle...转载 2019-05-22 21:15:30 · 714 阅读 · 0 评论 -
笔记:机器学习之协同过滤算法
1.协同过滤(Collaborative Filtering)算法 是一种常见的推荐算法,直白点说,就是你不知道怎么选择,大家来帮你选择。这个大家可能是用户,和你有相同偏好的人帮你选择你没有而他们有的;也可能是物品本身,和你历史物品相似的物品把自己推荐给你。对应的算法分类也就是基于用户的协同过滤算法和基于物品的协同过滤算法。前述可知,基于用户的协同过滤算法的关键是找到相同偏好的用户,找到...转载 2019-05-29 21:43:12 · 674 阅读 · 0 评论 -
笔记:机器学习之随机森林
1.什么是随机森林随机森林是将多颗决策树整合成森林,并合起来用来预测最终的结果。这里提现了集成学习(Ensemble)的思想所谓集成学习(ensemble)即,为了解决单个模型或某一组参数模型固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。2.随机森林算法原理(1)自助法(bootstrap)即从样本自身中获得很多可用的同等规模的新样本,从自己中产生和自己类似的,所以叫...转载 2019-05-06 20:53:18 · 237 阅读 · 0 评论 -
利用百度AI平台+pyqt5实现自动识别银行卡小工具
1.首先需申请一个百度AI接口http://ai.baidu.com/,点击进入选择控制台->图像处理,进入后选择创建应用,选择文字识别->银行卡识别如下图,获得API Key和Secret Key,通过如下http请求获得access_token,此值后续有用https://aip.baidubce.com/oauth/2.0/token?grant_type=clien...原创 2019-04-13 23:48:18 · 1093 阅读 · 2 评论 -
SVM支持向量机笔记
1.SVM是什么举个简单的例子,如下图所示左图有三条直线(1)虚线不能很好的进行分类(2)两条实线能够实现分类(在该数据集中表现较好),但是这两个线性模型的判定便界很靠近样本点,在新的数据上可能不会表现得那么好。右图一条实线(1)该实线不仅分开了两种类别,还尽可能远离了最靠近的训练数据点,可以理解为SVM分类器在两种类别之间保持了一条尽可能宽敞的街道,因此SVM可以理解为最...原创 2019-04-08 21:15:39 · 179 阅读 · 0 评论