DataWhale 集成学习（上）Task1

最新推荐文章于 2021-10-14 23:45:24 发布

Fewred

最新推荐文章于 2021-10-14 23:45:24 发布

阅读量77

点赞数

原文链接：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

版权

机器学习可以分为有监督学习和无监督学习

有监督学习:给定某些特征去估计因变量，即因变量存在的时候，我们称这个机器学习任务为有监督学习。如:我们使用房间面积，房屋所在地区，环境等级等因素去预测某个地区的房价。无监督学习:给定某些特征但不给定因变量，建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录，通过观察数据中的哪些类型的用户彼此间的行为和属性类似，形成一个客群。注意，我们本身并不知道哪个用户属于哪个客群，即没有给定因变量。

根据因变量的是否连续，有监督学习又分为回归和分类: 回归:因变量是连续型变量，如:房价，体重等。
分类:因变量是离散型变量，如:是否患癌症，西瓜是好瓜还是坏瓜等。

# 引入相关科学计算包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline 
plt.style.use("ggplot")      
import seaborn as sns

from sklearn import datasets
# sklearn内置数据集：糖尿病数据集
diabetes = datasets.load_diabetes() 
# 返回一个类似于字典的类
X = diabetes.data
y = diabetes.target
features = diabetes.feature_names
diabetes_data = pd.DataFrame(X,columns=features)
diabetes_data['disease_progression'] = y
diabetes_data.head()

	age	sex	bmi	bp	s1	s2	s3	s4	s5	s6	disease_progression
0	0.038076	0.050680	0.061696	0.021872	-0.044223	-0.034821	-0.043401	-0.002592	0.019908	-0.017646	151.0
1	-0.001882	-0.044642	-0.051474	-0.026328	-0.008449	-0.019163	0.074412	-0.039493	-0.068330	-0.092204	75.0
2	0.085299	0.050680	0.044451	-0.005671	-0.045599	-0.034194	-0.032356	-0.002592	0.002864	-0.025930	141.0
3	-0.089063	-0.044642	-0.011595	-0.036656	0.012191	0.024991	-0.036038	0.034309	0.022692	-0.009362	206.0
4	0.005383	-0.044642	-0.036385	0.021872	0.003935	0.015596	0.008142	-0.002592	-0.031991	-0.046641	135.0

sns.scatterplot(x=diabetes_data['s4'],
                y=diabetes_data['disease_progression'],
                color="r",alpha=0.6)
plt.title("s4~bp")
plt.show()

回归


from sklearn import datasets
# sklearn内置数据集：葡萄酒识别数据集
wine = datasets.load_wine()
X = wine.data
y = wine.target
features = wine.feature_names
wine_data = pd.DataFrame(X,columns=features)
wine_data['target'] = y
wine_data.head()

	alcohol	malic_acid	ash	alcalinity_of_ash	magnesium	total_phenols	flavanoids	nonflavanoid_phenols	proanthocyanins	color_intensity	hue	od280/od315_of_diluted_wines	proline
0	14.23	1.71	2.43	15.6	127.0	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065.0
1	13.20	1.78	2.14	11.2	100.0	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050.0
2	13.16	2.36	2.67	18.6	101.0	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185.0
3	14.37	1.95	2.50	16.8	113.0	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480.0
4	13.24	2.59	2.87	21.0	118.0	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735.0

# 可视化特征
marker = ['s','x','o']
for index,c in enumerate(np.unique(y)):
    plt.scatter(x=wine_data.loc[y==c,"alcohol"],y=wine_data.loc[y==c,"total_phenols"],alpha=0.8,label=c,marker=marker[c])
plt.xlabel("alcohol")
plt.ylabel("total_phenols")
plt.legend()
plt.show()

分类
在这里插入图片描述

from sklearn import datasets

# 生成月牙型非凸集
from sklearn import datasets
x, y = datasets.make_moons(n_samples=2000, shuffle=True,
noise=0.05, random_state=None) 
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y== c,0],x[y== c,1],s=7) 
plt.show()

无监督学习
在这里插入图片描述

from sklearn import datasets
x, y = datasets.make_blobs(n_samples=5000, n_features=2, centers=3) 
for index,c in enumerate(np.unique(y)):
    plt.scatter(x[y==c, 0], x[y==c, 1],s=7) 
plt.show()