![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
2020重新做人
这个作者很懒,什么都没留下…
展开
-
机器学习(一):K-近邻算法(KNN)分类与回归
这是自己的第一篇机器学习的文章,单纯做自己的学习笔记,一起加油进步K-近邻算法(KNN)原创 2019-06-21 18:19:33 · 6266 阅读 · 0 评论 -
二元分类器模型评估指标
文章目录准确率精准率与召回率F1值ROC AUC得分sklearn操作各个指标准确率准确率顾名思义就是分类器正确分类的样本数占总体数的比例,虽然准确率可以衡量分类器的整体正确性,但是当类别在总样本中呈偏态分布是,准确率就不是一个很有效的衡量指标,例如信用卡欺诈检测,大多数是合法交易,所以分类器的分类准确率会达到99%以上,但是这不能说明模型就一定是好的,所以分类器会经常使用精准率和召回率来进行...原创 2019-08-07 16:44:52 · 1395 阅读 · 0 评论 -
数据挖掘实战:信用卡违约率分析建模
这次做一个信用卡违约率的分析项目,具体的数据集可以在这里下载 数据集传送门文章目录提出问题数据集解读数据探索数据处理建模分析缺点与不足提出问题总体的违约率情况怎样什么样的人群容易违约违约模型的准确率怎样数据集解读这是一个台湾银行2005年的信用卡数据,首先观察数据集,了解一下个字段含义:字段含义ID客户IDLIMIT_BAL可透支金额(新台币)...原创 2019-08-06 12:38:22 · 6677 阅读 · 1 评论 -
数据挖掘实战(二):信用卡欺诈检测
此次信用卡欺诈是采用科赛数据科学社区一个项目的数据集来分析的,具体的数据集可以在这里下载 传送门数据集有100多M,使用excel打开会有有些卡顿,所以直接在python观察文章目录数据集解读数据探索数据规范化数据集划分模型创建模型训练评估总结与不足数据集解读数据集名称数据类型特征数实例数值缺失相关任务信用卡欺诈检测数据集数值数据31284807无不平...原创 2019-08-08 23:39:24 · 5214 阅读 · 3 评论 -
sklearn的pipeline管道机使用及原理
在使用机器学习的时候,往往需要对数据进行规范化处理,每一步都需要去执行,上一步执行完的数据传递给下一步执行数据,每一步生成的数据需要用一个变量来存储,这样子会繁琐的多,所幸,python有pipline管道机制Pipeline管道机制Pipeline管道机制,顾名思义,它就像水管一样,数据就像水一样,在管道之间流动,Pipline的每一步就将一节节水管,数据经由这一节水管留到下一节水管,流向下...原创 2019-08-01 14:08:06 · 2196 阅读 · 0 评论 -
机器学习(四):K-means聚类算法
文章目录K-means介绍K-means原理Sklearn实现K-means的优缺点优点缺点K-means与KNN的区别K-means介绍这是写机器学习笔记以来的第一个无监督学习算法,最常见的无监督学习就是聚类,也就是将无标记的数据分成几种集群,这些集群是根据某种相似度指标进行划分的。例如欧式距离等。聚类常常被用来探索数据集,例如推荐系统,会使用聚类定位一个用户感兴趣的产品。市场营销会对相似用...原创 2019-08-05 16:14:24 · 840 阅读 · 0 评论 -
数据降维:PCA主成分分析降维示例及函数参数解释
文章目录主成分分析(PCA)介绍PCA转化步骤PCA示例sklearn中的PCAPCA优缺点优点缺点主成分分析(PCA)介绍PCA也被叫做卡尔胡宁-勒夫转换(KLT),是一种用户在高维空间发现模式的技术。PCA常被用于探索和可视化高纬度数据集。PCA可以压缩数据,也就是所谓的数据降维。数据降维是指在保留重要信息的同时消除那些“无用信息量的信息”。PCA关注的是线性相关性,如果一个数据矩阵的列空...原创 2019-08-01 00:30:24 · 6316 阅读 · 0 评论 -
网格搜索:GridSearchCV函数参数解释及示例
GridSearchCV,网格搜索原创 2019-08-07 00:16:40 · 4062 阅读 · 0 评论 -
机器学习(三):SVM支持向量机
文章目录支持向量机介绍支持向量机原理SVM做分类SVM回归示例SVM做回归SVM回归示例SVM优缺点SVM优点SVM缺点支持向量机介绍支持向量机(Support Vectoc Machine,SVM)是一种强大的用于分类和回归的模型,十大数据挖掘算法之一。SVM是很好的现成分类器,即可以不加修改直接使用,应用SVM分类器会有很好的容错率。SVM甚至被称为是监督学习中最好的定式算法,所以SVM被...原创 2019-08-03 16:59:36 · 357 阅读 · 0 评论 -
机器学习(二):朴素贝叶斯算法
文章目录朴素贝叶斯介绍原理实现python代码实现scikit-learn实现总结朴素贝叶斯介绍朴素贝叶斯是一个使用贝叶斯定理进行建模的分类器。属于分类算法一列,它是基于贝叶斯定理和一个朴素的假设,即所有的特征都相互独立于其他给定的响应变量。而朴素贝叶斯还有一个假设就是每个特征同等重要。尽管这个假设看起开起来是有错的,但是实际效果却很好。朴素贝叶斯有多项式朴素贝叶斯、高斯朴素贝叶斯、伯努利朴...原创 2019-07-07 22:02:16 · 948 阅读 · 0 评论 -
数据预处理--One-hot编码
文章目录原理实现与pandas.get_dummies()的区别原理当我们遇到的变量是标称型变量时,也就是无法比较大小、没有序列性的数据时候,就需要独热编码,独热编码通过将数据进行编码,例如装修类型,分为精装、简装、毛坯三种类型,无法比较大小,只能通过独热编码来表示实现这里介绍的one-hot编码是使用scikit-learn.preprocessing的OneHotEncoder方法实现...原创 2019-06-22 17:06:54 · 957 阅读 · 0 评论