数据挖掘模型
文章平均质量分 92
Carolinedy
这个作者很懒,什么都没留下…
展开
-
使用随机逻辑回归进行特征筛选,并利用筛选后的特征建立逻辑回归模型
from sklearn.linear_model import LogisticRegression as LRfrom sklearn.linear_model import RandomizedLogisticRegression as RLRrlr=RLR() #建立随机逻辑回归模型,筛选变量rlr.fit(x,y) #训练模型rlr.get_support() #获取特征...原创 2018-06-14 14:51:54 · 10180 阅读 · 6 评论 -
K-Means 聚类算法分析客户群价值
K-Means 算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预订的类树 K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度越大。度量样本之间的相似性最常用的是 欧几里得距离、曼哈顿距离和闵可夫斯基距离;(Scikit-Learn 中的 KMeans 算法仅仅支持欧氏距离,因为采用其他的距离并不一定能够保证算法的收敛性。)度量聚类质量的目标函数...原创 2018-06-22 17:30:18 · 5761 阅读 · 0 评论 -
利用决策树 ID3 算法进行预测
决策树:决策树方法在分类、预测、规则提取等领域被广泛应用决策树是树状结构,它的每一个节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分城若干个子集。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从一直分类标价的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。ID3算法:基于信息熵来选择最佳测...原创 2018-06-20 15:22:16 · 4095 阅读 · 0 评论 -
关联规则——基于 Python 的 Apriori 算法实现
Apriori 核心思想:通过连接产生候选项与其支持度,然后通过剪枝生成频繁项集。关键概念:项集:项的集合。包含 k 个项的项集称为 k 项集,如{a,s,d}是一个3项集。 支持度:项集A、B同时发生的概率。 最小支持度:项集在统计意义上的最低重要性。 置信度:项集A发生,则项集B发生的概率。 最小置信度:关联规则的最低可靠性。 同时满足最小支持度阈值和最小置信度阈值的规则称作...原创 2018-07-12 16:59:25 · 3538 阅读 · 2 评论 -
数据挖掘流程总结及挖掘算法比较
一、数据前期探索 数据质量分析: 是数据预处理的前提主要任务:检查原始数据中是否存在脏数据脏数据:不符合要求,以及不能直接进行相应分析的数据。包括:缺失值,异常值,不一致的值,重复数据,含有特殊符号的数据。1、缺失值处理方式:删除存在缺失值的记录; 对可能值进行插补; 不处理。2、异常值(离群点)处理方式: 简单统计量分析(判断变量取值是否超出范围); ...原创 2018-08-07 15:43:52 · 8607 阅读 · 2 评论 -
数据挖掘建模实例
一、数据抽取日均增长数据 10G,取宽度为 2年的时间段作为观测窗口,项目数据为 6 T(若日均增长数据 14 G,则项目数据 10 T)。TB 量级以上的海量数据,要考虑存储和计算的效率问题。基于分布式存储以后,数据被分布式存储在不同的服务器上,那么可以采用分布式计算框架(Mapreduce,Spark)来进行并行计算,大幅度提高工作效率。l方法一,使用 Hive 导入数据...原创 2018-09-17 09:52:58 · 5008 阅读 · 0 评论