- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 分类模型的评价指标--混淆矩阵,ROC曲线,AUC及sklearn.metrics.roc_curve参数说明
分类模型的评价指标--混淆矩阵,ROC,AUC
2022-06-09 09:01:55 5904 1
原创 KNN(K-Nearest Neighbor)最邻近分类算法的实现原理及模型参数解析
KNN(K-Nearest Neighbor)最邻近分类算法的实现原理及模型参数解析
2022-06-07 16:17:52 1663
原创 因子分析原理及结果解析
因子分析及用SPSS做因子分析的步骤因子分析的起源:1904年英国的一个心理学家发现学生的英语、法语和古典语成绩非常有相关性,他认为这三门课程背后有一个共同的因素驱动,最后将这个因素定义为“语言能力”。基于这个想法,发现很多相关性很高的因素背后有共同的因子驱动,从而定义了因子分析。主要思想:因子分析主要基于降维的思想,通过探索变量之间的相关系数矩阵, 根据变量的相关性大小对变量进行分组,使同组内变量间的相关性较高,不同组变量的相关性较 低,而代表每组数据基本结构的新变量称为公共因子。也就是说,因子分
2022-06-02 17:50:30 36325 1
原创 Git下载 国内镜像包
下载git时,一开始用的官网https://git-scm.com/download/win,速度比蜗牛还慢,然后找了下阿里有一个镜像,下载速度超快。网址:https://npm.taobao.org/mirrors/git-for-windows/进去选择自己要的版本点击下载即可。...
2019-12-20 15:00:42 920
原创 2019年3-8月P2P市场现状分析报告
运用所学的数据分析知识,对2019年度3-8月P2P市场现状分析数据来源 :爬取了网贷之家公开的P2P网贷数据中的2019-03至2019-08的月度数据数据清洗:使用pandas对数据进行清洗,去除无效空白数据。数据分析+数据展示:使用pandas将网贷数据进行分析处理,在通过matplotlib想分析结果进行展示平台分类:使用了k-means方法进行建模,将网贷平台进行聚类1...
2019-10-15 17:56:47 834
原创 逻辑回归原理及sklearn.linear_model.LogisticRegression的参数说明
一)逻辑回归原理逻辑回归(Logistic Regression),是一种用于二分类(binary classification)的算法。和前面讲的支持向量机一样,也可以可以通过搭建多个二分类器进行多分类。逻辑回归的底层基于线性回归。通过输入的样本数据,基于多元线性回归模型求出线性预测方程:图一通过线性回归方程返回的是连续值,不可以直接用于分类业务模型,所以急需一种方式使得将连续的预测值...
2019-07-25 20:30:35 3590
原创 决策树回归、随机森林以及sklearn相关函数的参数说明
一)前言上一篇,讲述了如何用决策树进行分类,这一篇,就写一写如何用决策树进行回归上一篇地址:https://blog.csdn.net/MR_Trustin/article/details/96886157二)sklearn.tree.DecisionTreeRegressor参数及说明官方文档:https://scikit-learn.org/stable/modules/genera...
2019-07-23 20:29:12 3375
原创 用决策树分析泰坦尼克号生存
一)前言上一篇文章将了决策树分类的原理以及参数的分析,这篇就用用决策树分析泰坦尼克号生存情况。上一篇地址:https://blog.csdn.net/MR_Trustin/article/details/96886157二)代码以及分析数据来源于kaggle,地址是https://www.kaggle.com/c/titanic#导入相关模块%matplotlib inlineim...
2019-07-23 10:04:00 1689
原创 分类决策树原理及sklearn.tree.DecisionTreeClassifier参数说明
一)前言决策树这个算法说起来很简单,思路也很简单明了。但是如果你深入了解一下,里面的内容也相当的丰富,能细讲的也很多。决策树可以用于分类,也可以用于回归,今天这篇文章,主要总结了决策树回归原理,以及Sklearn库中决策树的使用参数,最后我还会用前面讲的网格搜索对回归决策树的参数进行优化。如果有哪些讲述的不太准确,还请大家在评论区指正。二)决策树原理核心思想:相似的输入必会产生相似的输出。.........
2019-07-22 19:15:48 9553 1
原创 机器学习之网格搜索(GridSearch)及参数说明,实例演示
一)GridSearchCV简介网格搜索(GridSearch)用于选取模型的最优超参数。获取最优超参数的方式可以绘制验证曲线,但是验证曲线只能每次获取一个最优超参数。如果多个超参数有很多排列组合的话,就可以使用网格搜索寻求最优超参数的组合。网格搜索针对超参数组合列表中的每一个组合,实例化给定的模型,做cv次交叉验证,将平均得分最高的超参数组合作为最佳的选择,返回模型对象。GridSearc...
2019-07-20 18:29:07 55024 9
原创 支持向量机SVM原理以及sklearn的实现(以及sklearn.svm.SVC参数说明)
一)支持向量机历史1995年Cortes和Vapnik于首先提出了支持向量机(Support Vector Machine)。因为其可以适应小样本的分类。分类速度快等特点,性能不差于人工神经网络,所以在这之后,人们将SVM应用于各个领域。二)支持向量机原理SVM是一种有监督的机器学习算法,解决的是二元分类问题,即分两类的问题,多元分类问题可以通过构造多个SVM分类器的方法来解决。SVM有两...
2019-07-18 18:02:47 5855 3
原创 K-means算法改进(K-means++以及二分K-means)
上一篇文章中,我在最后有说到,K-means算法由于初始“聚类中心”点是随机选取的,因此最终求得的簇的划分与随机选取的“聚类中心”有关,也就是说,可能会造成多种 k 个簇的划分情况。这是因为K-means算法收敛到了局部最小值,而非全局最小值。为了改进这一缺点,我们可以对算法加以改进。下面,我将为大家介绍两种改进的算法——K-means++ 和二分K-means。一)K-means++...
2019-07-15 19:27:44 7545
原创 KMeans算法(K均值)
1)在说KMeans算法之前,先简单说说聚类。聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小。聚类属于无监督学习。2)KMeans算法是聚类算法的一种经典算法。它的原理大致如下:第一步:随机选择K个样本作为K个聚类的中心,计算每个样本到各个聚类中心的欧氏距离,将该样本分配到与之距离最近的聚类中心所在类别中(也称为“簇...
2019-07-13 23:56:53 1657
转载 浏览器User-Agent大全
一、基础知识篇:HttpHeader之User-AgentUserAgent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,UserAgent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;例如用手机访问谷歌和电脑...
2019-06-21 16:21:38 846
转载 numpy.sort()学习
numpy.sort()学习记录python的功能真的是只有我想不到,没有它做不到在学系np.sort中学到了一些123456789101112131415161718print(array2)[14 13 12 11][10 9 8 7][ 6 5 4 3]print(np.sort(array2)) #仅对行维度进行排序——默认值...
2019-04-29 10:27:09 1961
转载 正则表达式
很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,在这里分享一下。给自己留个底,也给朋友们做个参考。一、校验数字的表达式数字:1*$n位的数字:^\d{n}$至少n位的数字:^\d{n,}$m-n位的数字:^\d{m,n}$零和非零开头的数字:^(0|[1-9][0-...
2019-04-23 13:14:46 2901
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人