Task01：熟悉机器学习的三大主要任务

最新推荐文章于 2023-08-10 09:05:04 发布

linyangou

最新推荐文章于 2023-08-10 09:05:04 发布

阅读量142

点赞数

分类专栏：学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linyangou/article/details/114831627

版权

学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

什么是机器学习？

机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。

通常在一个数据表dataframe里面，一行表示一个样本𝑥𝑖，一列表示一个特征。

根据数据是否有因变量（响应变量,y,结果集），机器学习的任务可分为：有监督学习和无监督学习。

根据因变量的是否连续，有监督学习又分为回归和分类：

回归：因变量是连续型变量，如：房价，体重等。
分类：因变量是离散型变量，如：是否患癌症，西瓜是好瓜还是坏瓜等。

为了更好地叙述后面的内容，我们对数据的形式作出如下约定：

第i个样本：𝑥𝑖=(𝑥𝑖1,𝑥𝑖2,...,𝑥𝑖𝑝,𝑦𝑖)𝑇,𝑖=1,2,...,𝑁

因变量𝑦=(𝑦1,𝑦2,...,𝑦𝑁)𝑇

第k个特征:𝑥(𝑘)=(𝑥1𝑘,𝑥2𝑘,...,𝑥𝑁𝑘)𝑇

特征矩阵𝑋=(𝑥1,𝑥2,...,𝑥𝑁)𝑇

回归

klearn中所有内置数据集都封装在datasets对象内：返回的对象有：

data:特征X的矩阵(ndarray)
target:因变量的向量(ndarray)
feature_names:特征名称(ndarray)

%matplotlib inline的含义

用在Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候，或者生成一个figure画布的时候，可以直接在你的python console里面生成图像。

（https://www.cnblogs.com/chester-cs/p/11825282.html）

什么是Seaborn

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面，便于用户能够做出各种有吸引力的统计图表。

import和from...import的区别

（https://jingyan.baidu.com/article/15622f242e15b6fdfcbea5b5.html）

import 语句：比如要引用模块 math，就可以在文件最开始的地方用 import math 来引入。在调用 math 模块中的函数时，必须这样引用：模块名.函数名

from…import 语句:

from fib import fibonacci

这个声明不会把整个 fib 模块导入到当前的命名空间中，它只会将 fib 里的 fibonacci 单个引入到执行这个声明的模块的全局符号表。

from…import*

把一个模块的所有内容全都导入到当前的命名空间。

np.unique( )的用法

该函数是去除数组中的重复数字，并进行排序之后输出。

Python enumerate() 函数

（https://www.runoob.com/python/python-func-enumerate.html）

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。Python 2.3. 以上版本可用，2.6 添加 start 参数。

sklearn的make_circles和make_moons生成数据

（https://blog.csdn.net/YangWei_19/article/details/79945746）

make_circles：生成环形数据

make_moons：生成半环形图

Pandas DataFrame的基本属性详解

（https://blog.csdn.net/wei_lin/article/details/93492252）

import pandas as pd 导入库

df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

代码功能

1 DataFrame() 创建一个DataFrame对象

2 df.values 返回ndarray类型的对象

3 df.index 获取行索引

4 df.columns 获取列索引

5 df.axes 获取行及列索引

6 df.T 行与列对调

7 df. info() 打印DataFrame对象的信息

8 df.head(i) 显示前 i 行数据

9 df.tail(i) 显示后 i 行数据

10 df.describe() 查看数据按列的统计信息

sklearn内置数据集Boston房价数据集：

各个特征的相关解释：

CRIM：各城镇的人均犯罪率
ZN：规划地段超过25,000平方英尺的住宅用地比例
INDUS：城镇非零售商业用地比例
CHAS：是否在查尔斯河边(=1是)
NOX：一氧化氮浓度(/千万分之一)
RM：每个住宅的平均房间数
AGE：1940年以前建造的自住房屋的比例
DIS：到波士顿五个就业中心的加权距离
RAD：放射状公路的可达性指数
TAX：全部价值的房产税率(每1万美元)
PTRATIO：按城镇分配的学生与教师比例
B：1000(Bk - 0.63)^2其中Bk是每个城镇的黑人比例
LSTAT：较低地位人口
Price：房价

iris数据集：

Iris 鸢尾花数据集是一个经典数据集，在统计学习和机器学习领域都经常被用作示例。

数据集内包含 3 类共 150 条记录，每类各 50 个数据

每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度

sepal length (cm)：花萼长度(厘米)
sepal width (cm)：花萼宽度(厘米)
petal length (cm)：花瓣长度(厘米)
petal width (cm)：花瓣宽度(厘米)

可以通过这4个特征预测鸢尾花卉属于（iris-setosa, iris-versicolour, iris-virginica）中的哪一品种。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。