数据挖掘
文章平均质量分 84
Python数据挖掘实践
DataScienceZone
这个作者很懒,什么都没留下…
展开
-
天池比赛-03-汽车产品聚类分析
这篇文章的内容来自于天池的数据科学比赛,主要对汽车产品聚类分析。1、赛题和数据1.1 赛题 赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。1.2 数据...原创 2023-02-22 22:31:29 · 366 阅读 · 0 评论 -
数据挖掘-关于分类问题样本不均衡的讨论
之前在看一下竞赛案例的时候遇到了样本不均衡的情况,尝试了不同的采样方式,效果也不是很好,所以在这篇文章讨论一下。1、样本不均衡是不是必须要进行上采样或下采样1.1 数据准备 这里生成一个包含2个特征的2分类数据集,同时把数据集中2类样本数据在样本空间的分布差异设置的比较明显:...原创 2022-02-13 11:20:55 · 773 阅读 · 0 评论 -
天池比赛-02-用Apriori算法进行商品关联分析
这篇文章是对天池比赛里面的商品关联分析案例的介绍,采用 Apriori 算法发现频繁项集,确定关联关系。1、基本概念1.1 关联分析的基本概念 频繁项集和关联规则是关联分析中的两个基本概念:频繁项集(frequent item sets)是经常出现在一块的物品的集合,关联规则(association rules)暗示两种物品之间可能存在很强的关系。 关联分析中采用支持度去筛选出频繁项集:一个项集的支持度(support)被定义为数据集中包含该项集的记录所占的比例。从图11-1中可以得到,{豆原创 2022-02-10 22:59:15 · 2192 阅读 · 0 评论 -
天池比赛-01-用随机森林进行信贷违约预测-Baseline
这篇文章构建了信贷违约预测数据挖掘项目的一个baseline,这个项目来源于天池数据科学大赛,是一个二分类问题。 赛题链接:https://tianchi.aliyun.com/competition/entrance/531830/introduction。1、赛题和数据介绍1.1 赛题背景 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。1.2 赛题数据 数据集中的字段含义如下:...原创 2022-01-08 16:13:32 · 2792 阅读 · 2 评论 -
Python数据挖掘-EDA-查看特征分布情况
0、环境介绍本文用到的Python库函数为 pandas 、 seaborn 和 scipy,pandas用于读取和处理数据,seaborn用于绘图,scipy用于检验数据是否服从正态分布。1、数据准备首先使用pandas读取 train.csv,得到名为 df_train 的 Dataframe,代码如下:import pandas as pdimport seaborn as snsfrom scipy import statsdf_train = pd.read_csv('train.原创 2021-03-09 22:12:48 · 2177 阅读 · 0 评论