【阿里云天池】机器学习学习赛-测一测你的一见钟情程度

最新推荐文章于 2024-10-09 09:16:08 发布

银河955

最新推荐文章于 2024-10-09 09:16:08 发布

阅读量2.6k

点赞数 4

分类专栏：机器学习学习文章标签：阿里云机器学习人工智能 python ai

本文链接：https://blog.csdn.net/galaxy_955/article/details/121942788

版权

本文记录了一位AI初学者在学习机器学习的过程中，参与阿里云天池一见钟情程度预测比赛的经历。通过分析数据、处理缺失值、特征选择和模型训练（使用神经网络模型），最终提升了模型的预测准确率至90%，相比基础的逻辑回归模型提高了7个百分点。

摘要由CSDN通过智能技术生成

AI 初学者，刚刚接触机器学习不久，记录一下自己的成长历程，希望多年之后回首，会感谢现在努力的自己。

历经 8 个星期的学习，基本学习完了西瓜书上的 10 个重要模型，首次接触机器学习比赛，选择了阿里云天池上的学习赛：测一测你的一见钟情程度来进行学习比赛流程，baseline 选择的是天池该比赛论坛中置顶的逻辑回归模型，预测准确率为 83%。

首先，引入过程中需要使用的包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import imblearn as ibl

pandas、numpy 是机器学习中常用的数据处理包，matplotlib 是 Python 中常用的实现可视化的画图包，而 seaborn 则是基于 matplotlib 的画图包，能够画出比 matplotlib 更加丰富的可视化图像，帮助更清晰的理解数据特征，而 imblearn 包则能处理采样的不平衡，让机器学习结果更加准确。其中，pandas、numpy、matplotlib、seaborn、sklearn 已经包含在 Anaconda 环境中，而 imbalanced-learn 则需要额外安装。

使用 pandas 读入数据之后分析数据的组成，查看是否有空缺值以及空缺值占比为多少，一般来说都会有一些空缺值，空缺值占比过多的特征不太适合拿来做为学习特征

missing_percent = data.isnull().sum() * 100 / len(data)
print(missing_percent.sort_values())

查看完空缺值占比情况之后对比较明显的几个特征进行一个可视化，看一下该特征对学习结果的影响情况，这里选择了查看相亲中脱单比例与性别、年龄的相关关系并进行可视化

# 第一张图：通过该活动成功脱单的人
plt.subplot(1, 2, 1)
groupSize_matche

最低0.47元/天解锁文章

银河955

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录