DataWhale集成学习-Task1


记录 DataWhale集成学习的组队学习过程,Task1是熟悉机器学习的三个任务,属于入门级的知识。我们知道,根据样本有无标签,传统机器学习可以分为有监督学习(样本有标签)和无监督学习(样本无标签)。
有监督学习中的带标签数据集可表示为: D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ ( x m , y m ) } D=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2)\cdots(\boldsymbol{x_m},y_m)\} D={(x1,y1),(x2,y2)(xm,ym)},其中 x i ∈ R d \boldsymbol{x_i}\in\mathbb R^d xiRd,表示样本的维度为 d。根据标签 y的类型,有监督学习又可以分为两类: y ∈ R y\in\mathbb R yR时称作回归问题; y ∈ N y\in\mathbb N yN时为分类问题。
无监督学习就是数据集是无标签的,如: D = { x 1 , x 2 ⋯ x m } D=\{\boldsymbol{x_1},\boldsymbol{x_2}\cdots\boldsymbol{x_m}\} D={x1,x2xm},其中 x i ∈ R d \boldsymbol{x_i}\in\mathbb R^d xiRd,对于无标签问题,需要从特征本身进行挖掘。

回归数据集

以Boston房价数据集为例子,给出了回归问题的实例

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets

boston = datasets.load_boston() # sklearn子代的数据集,直接导入即可。
X = boston.data #特征
y = boston.target #数值型标签
features = boston.feature_names #特征的名字
boston_data = pd.DataFrame(X,columns=features) #创建DataFrame
boston_data["Price"] = y

sns.scatterplot(boston_data['CRIM'],boston_data['Price'],alpha=0.5)#使用seaborn画散点图,这里画的是犯罪率和房屋价格的关系。
plt.show()

在这里插入图片描述

分类数据集

以iris数据集为例子,给出了分类问题的实例。

iris = datasets.load_iris()
X = iris.data #特征
y = iris.target #标签
features = iris.feature_names
iris_data = pd.DataFrame(X,columns=features)
iris_data['target'] = y

marker = ['s','x','o']
for index,c in enumerate(np.unique(y)):
    plt.scatter(x=iris_data.loc[y==c,"sepal length (cm)"],y=iris_data.loc[y==c,"sepal width (cm)"],alpha=0.8,label=c,marker=marker[c])#sepal length为横坐标,sepal width为纵坐标,画分布图。
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.legend()
plt.show()

在这里插入图片描述

无监督数据集

# 生成符合正态分布的聚类数据
x, y = datasets.make_blobs(n_samples=5000, n_features=2, centers=3)#make_blobs函数用于生成聚类数据集
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y==c, 0], x[y==c, 1],s=7)
plt.show()

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值