- 博客(15)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
原创 Python 聚类算法在矢量量化案例详解
关注微信公共号:小程在线关注CSDN博客:程志伟的博客KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值 通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数...
2020-03-30 23:06:58 3215
原创 Python 评分卡学会这篇文章就够了
关注微信公共号:小程在线关注CSDN博客:程志伟的博客基于这样的思想,我们总结出我们对一个特征进行分箱的步骤:1)我们首先把连续型变量分成一组数量较多的分类型变量,比如,将几万个样本分成100组,或50组2)确保每一组中都要包含两种类别的样本,否则IV值会无法计算3)我们对相邻的组进行卡方检验,卡方检验的P值很大的组进行合并,直到数据中的组数小于设定的N箱为止4)我们让一个特征分别...
2020-03-30 11:08:56 1130
原创 Python 评分卡之数据预处理(重复值、填补缺失值、异常值与数据不平衡)
关注微信公共号:小程在线关注CSDN博客:程志伟的博客评分卡之数据预处理:重复值、填补缺失值、异常值与数据不平衡在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,...
2020-03-29 15:26:23 2750
原创 Python 深入理解逻辑回归
关注微信公共号:小程在线关注CSDN博客:程志伟的博客其数学目的是求解能够让模型对数据拟合程度最高的参数 的值,以此构建预测函数 ,然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。注意,虽然我们熟悉的逻辑回归通常被用于处理二分类问题,但逻辑回归也可以做多分类。”损失函数“:来衡量参数为 的模型拟合训练集时产生的信息损失的大小,并以此衡量参数 的优劣。如果用一组参数建模后,模型在训练...
2020-03-28 21:21:43 1397
原创 Python 学好PCA干掉特征选择
Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.IPython 7.6.1 -- An enhanced Interactive Python.1. 调用库和模块...
2020-03-27 17:30:37 2320
原创 Python 三种方法对数据进行特征选择
关注微信公共号:小程在线关注CSDN博客:程志伟的博客特征选择:Filter过滤法、Embedded嵌入法、Wrapper包装法特征选择选取高维度进行数据处理##############特征选择 feature_selection#################import pandas as pddata = pd.read_csv(r"H:\程志伟\python\digit...
2020-03-26 15:15:21 6276
原创 Python 数据归一化、数据标准化、缺失值处理、处理分类型数据、处理连续型数据
关注微信公共号:小程在线关注CSDN博客:程志伟的博客Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.IPython 7.6.1 -- An enhanced In...
2020-03-24 22:05:30 2795
原创 Python 利用随机森林算法对缺失值填补
关注微信公共号:小程在线关注CSDN博客:程志伟的博客导入需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_bostonfrom sklearn.impute import SimpleImputerfrom s...
2020-03-14 18:59:44 9590 1
原创 Python 随机森林的实现与参数优化
关注微信公共号:小程在线关注CSDN博客:程志伟的博客通过n_estimators,random_state,boostrap和oob_score这四个参数了解袋装法的基本流程和重要概念。estimators_ 和 .oob_score_ 这两个重要属性。随机森林也有.feature_importances_这个属性。Python 3.7.3 (default, Apr 2...
2020-03-14 18:29:29 3762
原创 Python 决策树的建树、剪枝与优化
关注微信号:小城在线关注CSDN博客:程志伟的博客八个参数:Criterion,两个随机性相关的参数(random_state,splitter),五个剪枝参数(max_depth,min_samples_split,min_samples_leaf,max_feature,min_impurity_decrease)一个属性:feature_importances_四个接口:fit...
2020-03-13 19:18:01 1322
原创 R语言 Kmeans聚类、PAM聚类、层次聚类、EM聚类
关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1Kmeans函数:kmeans聚类pam函数:PAM聚类hclust函数:层次聚类cutree函数:层次聚类解Mclust函数:EM聚类mclustBIC函数:EM聚类> ##############对模拟数据的K-Means聚类> setwd('G:\\R语言\\大三下半年\...
2020-03-10 21:02:35 9421 2
原创 R语言 SVM(线性可分、线性不可分、多分类)
关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library("e1071", lib.loc="H:/Program Files/R/R-3.6.1/library")Warning message:程辑包‘e1071’是用R版本3.6.2 来建造的#####...
2020-03-08 21:41:12 8471 2
原创 R语言 神经网络neuralnet和nnet
关注微信公共号:小程在线关注CSDN博客:程志伟的博客neuralnet():建立B-P网络gwplot函数:神经网络变量重要性的可视化图形compute函数:利用神经网络进行预测nnet函数:建立B-P网络> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library("neuralnet")> BuyOrNot&l...
2020-03-05 11:59:32 16240 2
原创 R语言 决策树、bagging、boosting、随机森林
关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1rpart():建立分类回归树rpart.plot():可视化分类回归树rpart.control():设置分类回归树的参数printcp():查看复杂度参数CPplotcp():可视化复杂度参数CPprune():得到决策树的修剪子树bagging():利用袋装技术建立组合预测模型pr...
2020-03-03 15:39:21 6961 10
原创 R语言 K最近邻算法2
关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1K-最近邻算法:a.距离:闵可夫斯基距离、欧式距离、绝对距离、切比雪夫距离、夹角余弦距离b.临近个数:1-邻近法:以一个最近距离表示该类别,错误率不会高于普通贝叶斯的两倍。旁置法:70%的训练集和30%的测试集,适合样本大的情况。留一法:抽取一个样本作为测试集,这个过程需要重复N次,取平均值...
2020-03-01 19:40:01 3625
哪种算法可以分析药物的效果?急求啊
2015-11-24
R语言 判别分析中的二次判别没有线性判别的系数
2015-10-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人