怎么导入sklearn包_如何用sklearn来逻辑回归？——Titanic存活率预测

最新推荐文章于 2024-08-13 08:33:06 发布

戴O泡

最新推荐文章于 2024-08-13 08:33:06 发布

阅读量842

点赞数

文章标签：怎么导入sklearn包

本文链接：https://blog.csdn.net/weixin_32916125/article/details/112315026

版权

本文通过Titanic数据集演示机器学习流程，包括数据理解、数据清洗、建模与评估。使用sklearn的LogisticRegression进行逻辑回归，探讨生存率与乘客特征的关系。数据预处理涉及缺失值填充，特征选择与编码，最后训练并评估模型。

摘要由CSDN通过智能技术生成

上节说了python基本的语法，主要是一些函数的功能？

我的方法是对号入座即可，想要哪个功能去查，但是像侦探一样学python，猫猫强调的是思路，下面以一个有名的案例来模拟一下机器学习套路哈哈哈.

如何用sklearn进行逻辑回归？sklearn是什么——是python的一个机器学习包就是包！！！
一句话逻辑回归是在线性回归基础上加了一个逻辑函数，就这么简单
线性回归本质是找到一条拟合曲线！！
如何用python来逻辑回归？输入——训练数据的特征（数据特点）和标签（数据预测结果）转换为决策面；输出：分类结果训练数据（建模）；测试数据（验证正确性）

术语不直观，举个例子：网易云如何通过机器学习算法推荐给我们喜欢的音乐？

首先有数据，找到一个模型模拟数据（训练和测试数据集）规律，最后预测新输入的数据，得出结论推给用户。不就是统计学嘛哈哈哈哈，本喵很开心！！！！！
训练数据集：机器学习算法形成机器学习模型 80% 散点图定义决策面
测试数据集：验证模型的准确率 20%

再来一个例子：谷歌是怎么优化搜索引擎的？

谷歌把搜索页面结果按相关性排序，用户的每一次点击都是优化相关算法！！！
谷歌很聪明，善于运用机器学习（模拟人类思考）

解决方法：重点是找到特征，然后训练特征和标签的相关性，最后预测结论。

势必要用到python包中的几个函数，啥有同学问怎么建模，就更简单了，3行代码搞定哈哈哈

建立训练数据和测试数据
1导入函数train_test_split 从样本中随机选取测试数据和训练数据
2 开始数据模型sklearn 三行代码

导入逻辑回归函数 From sklearn.linear_model import LogisticRegression
创建模型 Model=logisticRegression
训练模型 Model.fit(X_train,y_train)

好了套路来了六步走：

一：提出问题：什么样的人更容易存活 二：理解：采集导入查看信息了解 三：清洗：缺失（空值）类型转换（变数字）排序异常值处理重命名特征工程（最大限度找特征） 四：构建模型：训练数据相关性 .五：模型评估：测试数据 六：方案实施：分析报告

一：提出问题

生存率和哪些因素有关（各列）

二：理解数据

放个Kaggle网站：https://www.kaggle.com/data搜索Titanic下载csv文件（train，test）

导入数据：用pandas和numpy处理数据，用read函数读取表，再用shape属性打印数据集的大小可以看出如下：

少一行是少了survive

为了统一清洗，用函数append对两个数据集进行合并如下：

合并是为了训练数据特征要和测试数据特征一致

将测试数据合并到训练数据中，变量full存放的是包括测试数据和训练数据全部的数据，查看数据集的总体情况，我们发现测试数据集比训练数据集少一行是因为少了survive，这个参数是最后需要和预测数据集比对查看正确率的，所以会缺失。合并时忽略在appen参数加上ignore_index=True用NaN填充。