![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 74
蓝天0809
努力学习中
展开
-
层次聚类-Hierarchical Clustering
一、概述层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树,距离越小,相似度越高。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法,这两种方法分别称为聚类与分裂。1)、自下向上的聚类方法(凝聚分层聚类)算法思想:将每个点都看成一个簇;将两个最近的簇合并为一个簇;不断重复上述过程,直到达到预期簇或簇之间的距离满足要求为止(指定簇数或样本距离原创 2021-07-24 11:57:40 · 12709 阅读 · 3 评论 -
DBSCAN密度聚类
基于密度的聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一个区域中的样本密度大于某个阈值,就把它划入与之相近的簇中。密度聚类从样本密度的角度进行考察样本之间的可连接性,并由可连接样本不断扩展直到获得最终的聚类结果。这类算法可以克服K-means、BIRCH等只适用于凸样本集的情况。常用的密度聚类算法:DBSCAN、MDCA、OPTICS、...原创 2020-10-05 11:42:03 · 970 阅读 · 0 评论 -
CNN卷积神经网络
在 CNN 结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层.与 MLP 类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接.全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息.为了提升 CNN 网络性能,全连接层每个神经元的激励函数一般采用 ReLU 函数。最后一层全连接层的输出值被传递给一个输出,可以采用 softmax 逻辑回归(softmax regress...原创 2020-01-21 18:25:00 · 315 阅读 · 0 评论 -
全连接神经网络
全连接神经网络,又称DNN,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。import numpy as npimport tensorflow as tfimport matplotlib.pyplot as pltimport input_datamnist = input_data.read_data_sets('data/', one_hot=T...原创 2020-01-21 18:22:38 · 568 阅读 · 0 评论 -
sklearn之adaboost
集成学习(Esemable learning)就是将若干个弱分类器通过一定的策略组合以后产生一个强分类器。弱分类器(也称基分类器)就是比随机猜测效果稍微好一点的分类器,而强分类器的分类效果要号很多。强和弱都是相对概念。目前集成学习算法主要有两个流派:bagging(装袋),boosting(提升)bagging主要是通过降低弱分类器的方差,代表方法是随机森立。是根据均匀概率分布从样本集中重复抽...原创 2019-08-09 20:19:36 · 2186 阅读 · 0 评论 -
算法叁数汇总
一、逻辑回归1、参数列表class sklearn.linear_model.LogisticRegression(penalty=‘l2’,dual=False, tol=0.0001, C=1.0, fit_intercept=True,intercept_scaling=1, class_weight=None,random_state=None, solver=‘liblinear’,...原创 2019-08-16 11:20:53 · 131 阅读 · 0 评论 -
sklearn之K近邻
K近邻算法(K- )又称KNN算法,是数据挖掘中原理最简单的算法。工作原理:给定一个已知标签的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的K个实例,如果K个实例的多数属于某个类别,那么新数据就属于这个类别。简单理解为:由那些离X点最近的K个点来决定其类别算法步骤:1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;...原创 2019-08-09 16:31:28 · 299 阅读 · 0 评论 -
sklearn之逻辑回归
一、基本流程二、logisticRegression的常用方法1、fit(X_train,y_train,sample_weight=None)拟合模型,用来训练LR分类器,返回值是self2、fit_transform(X,y=None)先fit后transform,返回X_new,nump矩阵3、predict(X_test)用来预测样本,返回array4、predi...原创 2019-03-30 16:34:03 · 420 阅读 · 0 评论 -
数据不平衡
在二分类中,数据不平衡是经常遇到的问题,其中又分为数据量大小问题和不平衡程度问题,两者组合的处理难度由小到大顺序为:**大数据+分布均衡<大数据不均衡<小数据+数据均衡<小数据+数据不均衡**。对于拿到的数据,可先统计数据量,再观察分布问题。经验表明,如果每类样本中有5000以上的样本,数据量是够的。如何处理数据不平衡问题呢?**处理数据不平衡问题的基本思路是使正负样本在训...原创 2019-03-26 22:14:54 · 609 阅读 · 0 评论 -
random_state
random_state相当于随机种子数,如果不设置random.seed()每次运行结果都不一样。种子就是个序号,这个序号交给一个数列管理器,通过这个序号,你从管理器中取出一个数列,这个数列就是你通过那个序号得到的随机数。随机性的检验有统计学伪随机性,密码学伪随机性,真随机性之分。在设置了random.seed()后运行结果一致。...原创 2019-03-26 22:35:44 · 7149 阅读 · 0 评论 -
cross_val_score
sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)estimator:数据对象X:数据y:预测数据scoring:调用方法cv:交叉验证生成器或...原创 2019-04-01 21:30:43 · 1215 阅读 · 0 评论 -
标准化归一化适用范围
1、需要归一化的模型:神经网络:标准差归一化支持向量机:标准差归一化线性回归,可用梯度下降求解,标准差归一化逻辑回归聚类算法K近邻PCALDA2、不需要归一化的模型:决策树:每次筛选都只考虑一个变量,不考虑变量之间的相关性,故不需要归一化随机森林:不需要归一化,mtry为变量个数的均方根朴素贝叶斯3、需要正则化的模型:LassoElastic Net参考文章:ht...原创 2019-03-28 17:28:32 · 1355 阅读 · 0 评论 -
标准化归一化正则化
一、标准化(normalization)公式为:(X-X_mean)/X_std将数据按其属性(每列)减去其均值,除以其方差,最后得到的结果是对每个属性/每列来说所有的数据都聚集在0附近,方差值为1。计算时对每个属性/每列分别进行。方法一:使用sklearn.preprocessing.scale()函数说明:x_mean(axis=0)计算X每个特征的平均值x_std(axis=0)计...原创 2019-03-28 21:51:02 · 3059 阅读 · 0 评论 -
sklearn决策树
sklearn.tree.DecisionTreeClassifier(criterion=‘gini’,splitter=‘best’,max_depth=None,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None,max_leaf_no...原创 2019-04-03 20:40:22 · 1522 阅读 · 3 评论 -
常用的数据预处理方法
一、删除处理data.drop()默认参数axis=0,表示对行index进行操作,如需对columns进行操作需要更改默认参数为axis=1;默认参数inplace=False,表示该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe,如需直接在原数据上进行删除操作,需要更改默认参数为inplace=True,删除后数据无法恢复data.dropna()DataFr...原创 2019-05-12 14:05:50 · 6313 阅读 · 0 评论 -
XGboost
参考文章:https://blog.csdn.net/qq_24519677/article/details/81869196一、泰坦尼克数据用sklearn调用XGBoost用原生版本调用二、鸢尾花数据原创 2019-05-22 15:36:12 · 304 阅读 · 0 评论 -
信用评分卡A卡、B卡、C卡区别
一、信用评分卡通过对客户实行打分制,以对客户优质与否做判断。二、分类:A卡(Application Score Card),申请评分卡B卡(Behavior Score Card),行为评分卡C卡(Collection Score Card),催收评分卡三、区别:1、使用的时间不同,分别侧重贷前,贷中,贷后2、数据要求不同,A卡一般做贷前0到1年的数据,B卡是在客户有了一定的行为有了...转载 2019-07-02 13:24:18 · 23820 阅读 · 0 评论 -
PCA绛维算法
在降维的过程中即减少特征的数量,又保留大部分有效信息,即通过将带有重复信息的特征合并,并删除那些带无效信息的特征等等——逐渐创造出能够代表原特征矩阵大部分信息的特征更少的,新特征矩阵。 有一种重要的特征选择方法:**方差过滤**。如果一个特征的方差很小,则意味着这个特征上很可能有大量取值都相同(比如90%都是1,只有10%是0,甚至100%是1),那这一个特征的取值对样本而言就没有区分度,...原创 2019-07-25 19:08:31 · 657 阅读 · 0 评论 -
人脸识别中PCA算法应用
导库,探索数据生成画布与子图对象建画布,画人脸建模绛维,提取新的特征空间将新特征空间矩阵可视化![在这里插入图片描述](https://img-blog.csdnimg.cn/20190725195801595.png注:由降维后再通过inverse_transform转换回原维度的数据画出的图像和原数据画的图像大致相似,但原数据的图像明显更加清晰。inverse_tra...转载 2019-07-25 20:03:52 · 341 阅读 · 0 评论 -
sklearn中的KMeans算法
1、聚类算法又叫做**“无监督分类”**,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。2、KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值通常被称为这个簇的**“质心”**...原创 2019-08-09 20:23:20 · 19105 阅读 · 0 评论 -
KMeans应用
K-Means聚类最重要的应用之一是非结构数据(图像,声音)上的矢量量化(VQ)。非结构化数据往往占用比较多的储存空间,文件本身也会比较大,运算非常缓慢,我们希望能够在保证数据质量的前提下,尽量地缩小非结构化数据的大小,或者简化非结构化数据的结构。矢量量化就可以帮助我们实现这个目的。KMeans聚类的矢量量化本质是一种降维运用,但它与我们之前学过的任何一种降维算法的思路都不相同。特征选择的降维是直...原创 2019-07-27 15:48:37 · 1283 阅读 · 0 评论 -
sklearn随机森林
classsklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=‘gini’,max_depth=None,min_samples_split=2,min_samples_leaf=1, min_weight_fraction_leaf=0.0,max_features=‘auto’, max_leaf_nod...原创 2019-04-03 22:19:58 · 1869 阅读 · 0 评论