python 相关性检验怎么计算p值_一把 sklearn 走天下 | 统计师的Python日记 第12天

1cfad4760b5fa9c5ae4b83c8525bf2e2.png

本文是【统计师的Python日记】第12天的日记

回顾一下:

  • 第1天学习了Python的基本页面、操作,以及几种主要的容器类型。
  • 第2天学习了python的函数、循环和条件、类。
  • 第3天了解了Numpy这个工具库。
  • 第4、5两天掌握了Pandas这个库的基本用法。
  • 第6天学习了数据的合并堆叠。
  • 第7天开始学习数据清洗,着手学会了重复值删除、异常值处理、替换、创建哑变量等技能。
  • 第8天接着学习数据清洗,一些常见的数据处理技巧,如分列、去除空白等被我一一攻破
  • 第9天学习了正则表达式处理文本数据
  • 第10天学习了数据的聚合操作、数据透视表pivot_table()方法、交叉表crosstab
  • 第11天学习了class类的概念以及如何写一个类

原文复习(点击查看):

【第1天:谁来给我讲讲Python?】

【第2天:再接着介绍一下Python呗】

【第3天:Numpy你好】

【第4天:欢迎光临Pandas】

【第四天的补充

【第5天:Pandas,露两手】

【第6天:数据合并】

【第7天:数据清洗(1)】

【第8天:数据清洗(2)文本处理】

【第9天:正则表达式】

【第10天:数据聚合】

【第11天:class 类—老司机的必修课】

今天将带来第12天的学习日记,开始学习Python的机器学习库:Scikit-learn(这个系列会不断连载,建议关注哦~)。本文会先认识一下 sklearn 这个库,再根据建模流程,学习一下 sklearn 的各个模块的使用。


目录如下:

前言

一、初识 sklearn

二、sklearn 的建模流程

1. 数据导入

2. 数据处理

(1)划分训练集和测试集

(2)数据清洗

3. 特征工程

4. 模型调参/选择

5. 模型测试和评价

6. 模型保存和调用

三、sklearn 建模流程总结 和 一个文本建模的例子


前言

前面学习了很多 Python 的数据基本操作,应付一个 project 前期的数据清洗、描述分析已然足够。今天开始要学习数据工程中的重头戏——数据建模。

用 Python 完成一个模型的构建,比较快的可以有三种方法:

① 第一种是完全按照计算逻辑写代码,比如 logistic 回归模型,你可以这么写:

(具体可以看这里:造出一艘logistic模型 | 【logistic从生产到使用】(下))

2b58d514bdcbb8d044e3b5e62e9f89d4.png

② 第二种是用最近很火的 tensorflow 开源库,同样的 logistic 回归,简洁一点的话可以这么写:

045c87dade82b5b310a064eed55eb55b.png

③ 第三种是用机器学习库 sklearn,logistic 回归我们只用这么写:

e24b6340c87e974b7b2850b8538b18b5.png

其他还有很多库就不说了,这三种中,第二种或者第三种显然是合理的选择。

  • tensorflow 是一种深度学习库,有很高的自由度,需要自己实现算法。适合数据量较大、一般需要GPU加速的运算。
  • 而sklearn 是通用机器学习库,里面已经包含了很多现成的深度学习算法、机器学习模型,以及数据预处理和特征工程。封装的高度抽象化,简单易用,适合中小型的机器学习项目,那种数据量不大、CPU上就可以完成的运算。

所以,对于初学者来说,sklearn是首选,因为它不仅封装了大量的机器学习库,还自带数据集!连学习要用的数据都准备好了,今天,就先学习一下 sklearn。

一、初识sklearn

sklearn 全称是 scikit-learn,它建立在 Numpy 和 matplotlib 的基础上,所以需要注意的是,以下我们介绍的方法,都是适用于 Numpy 数组的哦。现在我们导入这个库:

import sklearn

这个库里面包含了很多数据集、模块和函数,使用某几种函数,可以不用全部导入,用:

from sklearn.模块 import XX

比如:

from sklearn import datasets
from sklearn.feature_selection import SelectKBest
from sklearn.neighbors import KNeighborsClassifier

sklearn 有专门的 feature_selection (特征工程)和 neighbo

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值