Task01:熟悉机器学习的三大主要任务

什么是机器学习?

机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。

 

通常在一个数据表dataframe里面,一行表示一个样本𝑥𝑖,一列表示一个特征。

根据数据是否有因变量(响应变量,y,结果集),机器学习的任务可分为:有监督学习和无监督学习。

 

根据因变量的是否连续,有监督学习又分为回归和分类:

  • 回归:因变量是连续型变量,如:房价,体重等。
  • 分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。

 

 

为了更好地叙述后面的内容,我们对数据的形式作出如下约定:

第i个样本:𝑥𝑖=(𝑥𝑖1,𝑥𝑖2,...,𝑥𝑖𝑝,𝑦𝑖)𝑇,𝑖=1,2,...,𝑁

因变量𝑦=(𝑦1,𝑦2,...,𝑦𝑁)𝑇

第k个特征:𝑥(𝑘)=(𝑥1𝑘,𝑥2𝑘,...,𝑥𝑁𝑘)𝑇

特征矩阵𝑋=(𝑥1,𝑥2,...,𝑥𝑁)𝑇

 

回归

klearn中所有内置数据集都封装在datasets对象内: 返回的对象有:

  • data:特征X的矩阵(ndarray)
  • target:因变量的向量(ndarray)
  • feature_names:特征名称(ndarray)

 

 

 

 

 

%matplotlib inline的含义

用在Jupyter notebook中具体作用是当你调用matplotlib.pyplot的绘图函数plot()进行绘图的时候,或者生成一个figure画布的时候,可以直接在你的python console里面生成图像。

(https://www.cnblogs.com/chester-cs/p/11825282.html)

 

什么是Seaborn

Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。

 

import和from...import的区别

https://jingyan.baidu.com/article/15622f242e15b6fdfcbea5b5.html

import 语句:比如要引用模块 math,就可以在文件最开始的地方用 import math 来引入。在调用 math 模块中的函数时,必须这样引用:模块名.函数名

 

from…import 语句:

from fib import fibonacci

这个声明不会把整个 fib 模块导入到当前的命名空间中,它只会将 fib 里的 fibonacci 单个引入到执行这个声明的模块的全局符号表。

 

from…import*

把一个模块的所有内容全都导入到当前的命名空间。

 

np.unique( )的用法

该函数是去除数组中的重复数字,并进行排序之后输出。

 

Python enumerate() 函数

https://www.runoob.com/python/python-func-enumerate.html

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。Python 2.3. 以上版本可用,2.6 添加 start 参数。

 

sklearn的make_circles和make_moons生成数据

https://blog.csdn.net/YangWei_19/article/details/79945746

make_circles:生成环形数据

make_moons:生成半环形图

 

Pandas DataFrame的基本属性详解

https://blog.csdn.net/wei_lin/article/details/93492252

import pandas as pd 导入库

df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

代码 功能

1 DataFrame() 创建一个DataFrame对象

2 df.values 返回ndarray类型的对象

3 df.index 获取行索引

4 df.columns 获取列索引

5 df.axes 获取行及列索引

6 df.T 行与列对调

7 df. info() 打印DataFrame对象的信息

8 df.head(i) 显示前 i 行数据

9 df.tail(i) 显示后 i 行数据

10 df.describe() 查看数据按列的统计信息

 

sklearn内置数据集Boston房价数据集:

各个特征的相关解释:

  • CRIM:各城镇的人均犯罪率
  • ZN:规划地段超过25,000平方英尺的住宅用地比例
  • INDUS:城镇非零售商业用地比例
  • CHAS:是否在查尔斯河边(=1是)
  • NOX:一氧化氮浓度(/千万分之一)
  • RM:每个住宅的平均房间数
  • AGE:1940年以前建造的自住房屋的比例
  • DIS:到波士顿五个就业中心的加权距离
  • RAD:放射状公路的可达性指数
  • TAX:全部价值的房产税率(每1万美元)
  • PTRATIO:按城镇分配的学生与教师比例
  • B:1000(Bk - 0.63)^2其中Bk是每个城镇的黑人比例
  • LSTAT:较低地位人口
  • Price:房价

 

iris数据集:

Iris 鸢尾花数据集是一个经典数据集,在统计学习和机器学习领域都经常被用作示例。

数据集内包含 3 类共 150 条记录,每类各 50 个数据

每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度

  • sepal length (cm):花萼长度(厘米)
  • sepal width (cm):花萼宽度(厘米)
  • petal length (cm):花瓣长度(厘米)
  • petal width (cm):花瓣宽度(厘米)

可以通过这4个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值