DataWhale 集成学习(上)Task1

机器学习可以分为有监督学习和无监督学习

有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有 监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。 无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我 们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属 性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。

根据因变量的是否连续,有监督学习又分为回归和分类: 回归:因变量是连续型变量,如:房价,体重等。
分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。

# 引入相关科学计算包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
plt.style.use("ggplot")      
import seaborn as sns
from sklearn import datasets
# sklearn内置数据集:糖尿病数据集
diabetes = datasets.load_diabetes() 
# 返回一个类似于字典的类
X = diabetes.data
y = diabetes.target
features = diabetes.feature_names
diabetes_data = pd.DataFrame(X,columns=features)
diabetes_data['disease_progression'] = y
diabetes_data.head()

agesexbmibps1s2s3s4s5s6disease_progression
00.0380760.0506800.0616960.021872-0.044223-0.034821-0.043401-0.0025920.019908-0.017646151.0
1-0.001882-0.044642-0.051474-0.026328-0.008449-0.0191630.074412-0.039493-0.068330-0.09220475.0
20.0852990.0506800.044451-0.005671-0.045599-0.034194-0.032356-0.0025920.002864-0.025930141.0
3-0.089063-0.044642-0.011595-0.0366560.0121910.024991-0.0360380.0343090.022692-0.009362206.0
40.005383-0.044642-0.0363850.0218720.0039350.0155960.008142-0.002592-0.031991-0.046641135.0
sns.scatterplot(x=diabetes_data['s4'],
                y=diabetes_data['disease_progression'],
                color="r",alpha=0.6)
plt.title("s4~bp")
plt.show()

回归
回归


from sklearn import datasets
# sklearn内置数据集:葡萄酒识别数据集
wine = datasets.load_wine()
X = wine.data
y = wine.target
features = wine.feature_names
wine_data = pd.DataFrame(X,columns=features)
wine_data['target'] = y
wine_data.head()

alcoholmalic_acidashalcalinity_of_ashmagnesiumtotal_phenolsflavanoidsnonflavanoid_phenolsproanthocyaninscolor_intensityhueod280/od315_of_diluted_winesprolinetarget
014.231.712.4315.6127.02.803.060.282.295.641.043.921065.00
113.201.782.1411.2100.02.652.760.261.284.381.053.401050.00
213.162.362.6718.6101.02.803.240.302.815.681.033.171185.00
314.371.952.5016.8113.03.853.490.242.187.800.863.451480.00
413.242.592.8721.0118.02.802.690.391.824.321.042.93735.00
# 可视化特征
marker = ['s','x','o']
for index,c in enumerate(np.unique(y)):
    plt.scatter(x=wine_data.loc[y==c,"alcohol"],y=wine_data.loc[y==c,"total_phenols"],alpha=0.8,label=c,marker=marker[c])
plt.xlabel("alcohol")
plt.ylabel("total_phenols")
plt.legend()
plt.show()

分类
在这里插入图片描述

from sklearn import datasets
# 生成月牙型非凸集
from sklearn import datasets
x, y = datasets.make_moons(n_samples=2000, shuffle=True,
noise=0.05, random_state=None) 
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y== c,0],x[y== c,1],s=7) 
plt.show()

无监督学习
在这里插入图片描述

from sklearn import datasets
x, y = datasets.make_blobs(n_samples=5000, n_features=2, centers=3) 
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y==c, 0], x[y==c, 1],s=7) 
plt.show()

在这里插入图片描述
结论:
对于有监督学习,我们可以使用线性方法求解回归问题,用非线性的方法求解分类问题。
对于无监督学习,不在本次集成学习的范围中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值