机器学习程序题

最新推荐文章于 2024-03-05 06:12:26 发布

寂静花开

最新推荐文章于 2024-03-05 06:12:26 发布

阅读量2.4k

点赞数 6

分类专栏：机器学习文章标签：机器学习 sklearn python

本文链接：https://blog.csdn.net/qq_45884783/article/details/122208575

版权

机器学习专栏收录该内容

8 篇文章 15 订阅

订阅专栏

本文介绍了K-近邻算法在手写数据集上的应用，通过sklearn库实现了KNN分类器，并进行了8:2的数据划分，计算了准确率。同时，展示了线性回归（正规方程）在波士顿房价预测中的运用，以及逻辑回归在癌症分类预测中的应用。此外，还使用KMeans聚类算法对手顾客数据进行分析，完成了顾客群体的划分。

摘要由CSDN通过智能技术生成

从代码如下开始背

1、已知训练集数据的特征值如下：
- 题干
- 代码
2、请编程实现手写数据集的K-近邻算法实现过程。要求： k值取6，按8:2划分训练集和测试集，最后给出准确率。
- 题干
- 代码
3、请用线性回归（正规方程）算法编程实现波士顿房价的预测过程。
- 题干
- 代码
4、题目：使用逻辑回归模型实现癌症分类预测。
- 题干
- 代码
5、题目：使用聚类算法模型实现顾客数据聚类分析。
- 题干
- 代码

1、已知训练集数据的特征值如下：

题干

raw_data_x=[[3.3144558 , 2.33542461],
       [3.75497175, 1.93856648],
       [1.38327539, 3.38724496],
       [3.09203999, 4.47090056],
       [2.58593831, 2.13055653],
       [7.41206251, 4.80305318],
       [5.912852  , 3.72918089],
       [9.21547627, 2.8132231 ],
       [7.36039738, 3.35043406],
       [7.13698009, 0.40130301]]

训练集的目标值：raw_data_y=[0,0,0,0,0,1,1,1,1,1]
请使用K-近邻算法（k值取5）预测新的样本点[8.093607318,3.365731514]的目标值？

import numpy as np
#定义特征值
raw_data_x=[[3.3144558 , 2.33542461],
       [3.75497175, 1.93856648],
       [1.38327539, 3.38724496],
       [3.09203999, 4.47090056],
       [2.58593831, 2.13055653],
       [7.41206251, 4.80305318],
       [5.912852  , 3.72918089],
       [9.21547627, 2.8132231 ],
       [7.36039738, 3.35043406],
       [7.13698009, 0.40130301]]
#定义目标值
raw_data_y=[0,0,0,0,0,1,1,1,1,1]
#将训练集和测试集转换成Numpy数组类型
X_train = np.array(raw_data_x)
y_train = np.array(raw_data_y)
x=np.array([8.093607318,3.365731514])
#代码实现如下（可直接使用sklearn创建knn算法的分类器）（以下都记）
#导入模型方法
A
#创建knn算法的分类器实例
B
#拟合训练数据
C
#将样本维度变为二维
D
#利用knn算法进行预测
E
#得出预测结果
F

代码

A、 from sklearn.neighbors import KNeighborsClassifier 
B、 knn_classifier = KNeighborsClassifier(n_neighbors=5) 
C、 knn_classifier.fit(X_train,y_train) 
D、 x1 = x.reshape(1, -1) 
E、 y_predict = knn_classifier.predict(x1) 
F、 y_predict[0]

2、请编程实现手写数据集的K-近邻算法实现过程。要求： k值取6，按8:2划分训练集和测试集，最后给出准确率。

题干

import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn import datasets
#加载手写数字集图片数据
digits = datasets.load_digits()
#查看该数据集的描述信息
digits.DESCR
#查看数据集的shape
X = digits.data
X.shape
y = digits.target
y.shape
#取出某个数据集绘制图像：
some_digit = X[666]
y[666]
#将数据集变为(8,8)的二维数据
some_digit_image = some_digit.reshape(8,8)
#绘制二维图片
plt.imshow(some_digit_image,cmap=matplotlib.cm.binary)
plt.show()

请利用knn算法进行分类预测，重点：可直接使用sklearn创建knn算法的分类器，k值取6，按8:2划分训练集和测试集，最后给出准确率。

#代码实现如下
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#划分数据集，测试集占20%
A
#生产knn模型实例
B
#训练knn模型
C
#预测测试集
D
#导入准确率模型
E
#计算准确率
F

代码

A、 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2) 
B、 knn_classifier = KNeighborsClassifier(n_neighbors=6) 
C、 knn_classifier.fit(X_train,y_train) 
D、 y_predict = knn_classifier.predict(X_test) 
E、 from sklearn.metrics import accuracy_score 
F、 knn_classifier.score(X_test,y_test)

3、请用线性回归（正规方程）算法编程实现波士顿房价的预测过程。

题干

要求： k值取6，按8:2划分训练集和测试集，最后给出准确率。

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
from sklearn.linear_model import LinearRegression
# 1.获取数据
data = load_boston()
# 2.数据集划分
x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)
# 3.特征工程-标准化
#生产标准化对象
A
#训练集标准化
B
#测试集标准化
C
# 4.机器学习-线性回归(正规方程)
#生产线性方程模型对象
D
#训练模型
E
# 5.模型评估
# 5.1 获取系数等值
#预测
F
print("预测值为:\n", y_predict)
print("模型中的系数为:\n", estimator.coef_)
print("模型中的偏置为:\n", estimator.intercept_)
# 5.2 评价
# 均方误差
error = mean_squared_error(y_test, y_predict)
print("误差为:\n", error)

代码

A、 transfer = StandardScaler() 
B、 x_train = transfer.fit_transform(x_train) 
C、 x_test = transfer.transform(x_test) 
D、 estimator = LinearRegression() 
E、 estimator.fit(x_train, y_train) 
F、 y_predict = estimator.predict(x_test)

4、题目：使用逻辑回归模型实现癌症分类预测。

题干

数据描述(附件中下载breast-cancer-wisconsin.data文件，拷贝至程序同一目录下)
（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示肿瘤类型的数值。
（2）包含16个缺失值，用”?”标出。
要求：部分代码已给出，请根据提示编程实现题目，将代码填入选项中，一个选项只填一行代码。

部分代码如下：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
 
# 1.获取数据
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
 
data = pd.read_csv("breast-cancer-wisconsin.data",names=names)
data.head()
# 2.基本数据处理
# 2.1 缺失值处理
# 查看缺失值
data[data.replace(to_replace="?", value=np.NaN).isna().any(axis=1)]
# 处理缺失值
data = data.replace(to_replace="?", value=np.NaN)
data = data.dropna()
# 2.2 确定特征值,目标值
x = data.iloc[:, 1:10]
x.head()
y = data["Class"]
y.head()
# 2.3 分割数据
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22)
# 3.特征工程(标准化)
#实例化一个标准化模型
         A
#训练集标准化
        B
#测试集标准化
        C
# 4.机器学习(逻辑回归)
#实例化逻辑回归模型
        D
#训练回归模型
        E
# 5.模型评估
# 模型预测
        F
# 查看预测结果
y_predict
# 评估模型
       G

代码

A、 transfer = StandardScaler() 
B、 x_train = transfer.fit_transform(x_train) 
C、 x_test = transfer.transform(x_test) 
D、 estimator = LogisticRegression() 
E、 estimator.fit(x_train, y_train) 
F、 y_predict = estimator.predict(x_test) 
G、 estimator.score(x_test, y_test)

5、题目：使用聚类算法模型实现顾客数据聚类分析。

题干

数据为附件中的customers.csv，下载附件至程序同一文件夹下。
部分代码已给出，请按照提示编程，将代码填入选项中，一个选项只填一行代码。

部分代码如下：

import pandas as pd

#读入文件
    A
#查看文件前5行数据
    B
#考虑最后两列作为分群依据：全部行，第四第五列Annual Income(k$) 和 Spending Score(1-100)
    C
#导入KMeans模型
    D
#生产实例化对象，聚5类，使用默认的k-means++算法，随机种子为42
    E
#直接训练并生成聚类结果
    F
#输出聚类结果
print(y_kmeans)

代码

A、 dataset = pd.read_csv('customers.csv') 
B、 dataset.head() 
C、 X = dataset.iloc[:, [3, 4]].values  
D、 from sklearn.cluster import KMeans 
E、 kmeans = KMeans(n_clusters = 5, init = 'k-means++', random_state = 42) 
F、 y_kmeans = kmeans.fit_predict(X)

寂静花开

关注

6
点赞
踩
31

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习程序题

目录1、已知训练集数据的特征值如下：2、请编程实现手写数据集的K-近邻算法实现过程。要求： k值取6，按8:2划分训练集和测试集，最后给出准确率。3、请用线性回归（正规方程）算法编程实现波士顿房价的预测过程。要求： k值取6，按8:2划分训练集和测试集，最后给出准确率。1、已知训练集数据的特征值如下：raw_data_x=[[3.3144558 , 2.33542461], [3.75497175, 1.93856648], [1.38327539, 3.38724496]
复制链接

扫一扫