数据科学
文章平均质量分 94
Gadus_
这个作者很懒,什么都没留下…
展开
-
数据科学/机器学习——特征选择【代码实例:银行电话营销】
特征选择要求:在保证一定分类精度的前提下,减少特征维度【“降维”】,使分类器实现快速、准确和高效的分类【关键:所提供的识别特征具有很好的可分性,使分类器容易判别】应去掉模棱两可、不易判别的特征所提供的特征不重复【去掉相关性强且没有增加更多信息的特征】特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因:减轻维度灾难、降低学习难度特征选择的一般过程子集产生:根据某种策略产生候选的特征子集前向搜索:逐渐增加相关特征后向搜索:从完整的特征集合开始,组件原创 2021-01-19 11:55:45 · 1731 阅读 · 0 评论 -
机器学习/数据科学——关联规则挖掘
关联规则挖掘概述相关性检验:检验数据特征之间线性相关性的统计量,取值范围[-1,1],绝对值越大特征之间的相关性越强衡量指标重要性:用关联规则中包含的所有特征(X=A∪B)的支持度(support)S(X)来衡量【即为关联规则被多少比例的数据覆盖】置信度:衡量规则可信程度定量描述规则:给定数据集,找出所有不小于预先设置的支持度阈值min_suppt 和置信度阈值min_conf规则的集合强关联规则:在支持度和置信度两个方面满足最小的条件步骤:找到所有不小于支持度阈值的规则【频原创 2020-12-07 14:16:22 · 820 阅读 · 0 评论 -
数据科学/机器学习python——聚类模型【K-means聚类举例】
聚类模型无标签、无监督学习可以简化数据,有助于寻找数据的内部结构基于相似度【能把不同领域的数据相似度的度量融合进去,还可加入核函数】;基于特征【可以直接考虑原始的数据,避免因为度量距离而丢失某些信息】平坦聚类/分割聚类【直接将样本分割为多个不相交的子集】、层次聚类【通过构造具有层级的树形结构,在不同层次上对样本进行分割】K-means聚类起源于信号处理,是一种应用较广泛的聚类分析方法,目标是将n个样本划分到K个簇重,其中每个样本属于距离自己最近的簇【找到每个簇的中心,并最小化所有样本点到质原创 2020-11-21 20:01:30 · 1094 阅读 · 0 评论 -
数据科学/机器学习——集成模型【实例分析稍后放上,多稍后我也不确定...】
集成模型“三个臭皮匠,顶个诸葛亮”,个体方法总有不足,博采众长,考虑问题不同视角,通过将多个模型的结果进行综合,集成方法通常能获得比单个学习模型更好的预测性能以及更准确的结果,常应用于有监督模型。前提要求:基模型的预测能力比随即猜测好,且多个基模型之间具有差异性。集成方法:增强模型的表达能力;降低误差,大幅度提升模型预测性能【前提:基模型之间相互独立】集成分类器误差:构建集成模型步骤构造多个基模型可同一类型也可不同根据一定策略,将基模型组合成集成模型多数投票方法、平均值方原创 2020-11-10 11:19:36 · 1043 阅读 · 0 评论 -
数据科学/机器学习python——分类模型代码实现【KNN/ 决策树/ 逻辑回归/ 贝叶斯】
分类模型评估分类模型指标:正确率accuracy、F值F-measure、精度precision、召回率recall逻辑回归风险评估中最经典最常用的模型通常解决二分类问题,即预测目标y的取值范围为{1,-1}从线性回归到逻辑回归线性回归存在问题:y取值为连续实数而非离散值——解决:引入逻辑斯蒂函数,将连续性的输出映射到(0,1)之间当输入x很大或很小时,函数接近于0或1的值输出,σ(0)=0.5使用逻辑斯蒂函数,可将任意实数映射到(0,1)之间,在逻辑回归中可解释为样本属于正原创 2020-10-13 21:07:59 · 927 阅读 · 1 评论 -
数据科学/机器学习python——数据预处理方法(onehot编码 缺失值处理 数据标准化 离群值检测)
数据预处理方法特征编码数字编码简单的数字编码:从0开始赋予特征的每一个取值一个整数收入水平={贫困,低收入,小康,中等收入,富有} → 收入水平={0,1,2,3,4}但这样的数字编码后的数据,引入了本不存在的次序关系,会导致后续错误的建模分析结果,骨为了避免上述误导性的结果,对于离散型特征(特别是名义型特征),使用One-Hot编码One-Hot编码将包含K个取值的离散型特征转换成K个二元特征(0/1)优点:不会人为地引入次序关系,不同的原始特征取值之间拥有相同的距离,线性回归原创 2020-09-11 20:08:22 · 2061 阅读 · 0 评论