机器学习入门一

 

目录

一 机器学习概述

·机器学习开发流程

·学习目标

·机器学习概述

· 机器学习算法分类

1.监督学习

2.无监督学习

·学习方向定位

二 数据集

·数据集的组成

1)数据存储和读取

2)学习阶段可用数据集

 3)常用数据集数据结构组成

·scikit-learn介绍及使用

1)使用导入库代码

2)sklearn数据集使用

3)sklearn数据集返回值介绍

4)数据集的划分

三 特征工程

·特征工程定义

1)特征工程定义

2)特征工程和数据处理

3)特征工程包含内容


机器学习重点:理解算法原理,掌握算法使用技能,熟练掌握python库中的一些算法(算法是核心,数据和计算是基础),学会利用库和框架解决问题

一 机器学习概述

·机器学习开发流程

1)获取数据

2)数据处理

3)特征工程

4)使用机器学习算法进行训练——得到模型

5)模型评估

6)应用

·学习目标

1.算法原理及算法使用:在学习过程中注意算法的原理,而不只是重现代码

2.熟悉算法使用,结合应用场景解决实际问题

3.掌握使用机器学习算法库和框架的技能

·机器学习概述

1)定义:从数据中自动分析获得规律模型,利用规律进行数据预测

· 机器学习算法分类

1.监督学习

1)分类问题:目标值是类别(离散型数据)

2)回归问题:目标值是连续型的数据(连续型数据)

2.无监督学习

3)无监督学习:没有目标值

·学习方向定位

1.分析大量数据

2.分析具体业务

3.应用常见算法

4.特征工程、调参数、优化

二 数据集

·数据集的组成

1)数据存储和读取

1.机器学习的数据存储在 文件csv

2.基于numoy库的pandas库读取数据速度快  

3.python是动态语言,虽然是多线程,但多线程不是同时进行,numpy释放了GIL做到速度快

2)学习阶段可用数据集

 3)常用数据集数据结构组成

1.特征值+目标值,根据给定的特征值分析得到目标值,机器学习给定的数据都是特征值,由特征值得到目标值

2.每一行数据读可以称为一个样本 

3.有些数据集可以没有目标值

·scikit-learn介绍及使用

1)使用导入库代码

import sklearn

2)sklearn数据集使用

1.数据集的使用:

2.获取小数据集

sklearn.datasets.load_iris()

3.获取大数据集

3)sklearn数据集返回值介绍

1.返回值介绍:返回的数据类型继承自字典,可以用相应的字典函数方法获取相应的值

(注意:拿来的数据不要全部用来得到模型,还有一部分要用来评估模型)

2.调用数据集、获取数据集里面的相应数据:

3.numpy是sklearn的基础库之一,sklearn返回值类型有numpy库的二维数组

4)数据集的划分

·训练数据和测试数据

·数据集划分(要注意返回值顺序),数据集划分使用前要先导入库

·数据集划分返回值顺序:训练集特征值、测试集特征值、训练集目标值、测试集目标值

三 特征工程

·特征工程定义

1)特征工程定义

将原始数据转换成更好代表预测模型的潜在问题的特征的过程,从而提高了对未知数据预测的准确性。特征工程在数据处理过程中的位置及重要性(对数据的特征进行处理)

2)特征工程和数据处理

1.特征工程工具:sklearn,对特征的处理提供了强大的接口

2.pandas:数据清洗、数据处理

3)特征工程包含内容

1.特征抽取/特征提取

2.特征预处理

3.特征降维

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值