数据统计与分析基础——实验四 机器学习算法建模与求解

实验目的:掌握使用实用软件通过各类基础的机器学习算法解决实际数据统计分析任务的能力,熟悉线性回归、SVM、kmeans、PCA等算法的调用。

实验工具:python

实验内容
1、对于下表中的数据,对1990年-2005年内的数据建立人口自然增长率对于国民总收入、CPI增长率和人均GDP的三元线性回归模型。

#人口自然增长率对于国民总收入、CPI增长率和人均GDP的三元线性回归模型

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('z.csv',encoding='gbk')#在本目录下新建z.csv文件,录入表格中数据,用pd.read_csv()函数读取z.csv文件中的数据
df.info()
df.head(19)#人口自然增长率:population_growth_rate,国民总收入:gross_nation_income,GPI增长率:GPI_growth_rate,人均GDP:GDP_per_captia

数据部分展示:
4.1

#构建三元元线性回归模型
from statsmodels.formula.api import ols# 小写的 ols 函数才会自带截距项,OLS 则不会
#人口自然增长率=a*国民总收入+b*GPI增长率+c*人均GDP+d
lm = ols(' population_growth_rate ~ gross_nation_income + GPI_growth_rate + GDP_per_captia ', data=df).fit()# 固定格式:因变量 ~ 自变量(+ 号连接)
lm.summary()

模型各项数据:
4.12

lm.params #打印模型参数

4.13建立的三元线性模型:
population_growth_rate=0.000375gross_nation_income + 0.049739GPI_growth_rate - 0.005660*GDP_per_captia + 15.719775

2、下载UCI中wine数据集:http://archive.ics.uci.edu/ml/datasets/Wine。所下载数据可以用txt打开,其中每一行数据为一种Wine的记录,每条记录包含14个维度,其中第一维为该Wine类别,后面13维为具体的Wine属性。请基于所有的178个Wine样本对Wine的13个维度进行PCA降维分析,将贡献率之和大于90%的成分提取,并将原13维属性数据映射为新数据。

#读取数据
import numpy as np
import pandas as pd
date = pd.read_csv('wine.data') # 需要在wine数据集补0~13作为标头
date.head()

读取数据:
4.21

#调用sklearn库实现PCA
import numpy as np
from sklearn.decomposition import PCA
pca = PCA(n_components = 0.9)#方差和大于0.9,PCA会自动地选择下降维数
low_dim_data = pca.fit_transform(date)
print(pca.n_components_)#返回所保留的特征个数
print(pca.explained_variance_)#降维后的各主成分的方差值,方差值越大则越是重要的主成分
print(pca.explained_variance_ratio_)#返回所保留各个特征的方差百分比,比例越大则越是重要的主成分
print(low_dim_data
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值