逻辑回归与k-means

PURE-li

已于 2023-02-16 01:18:36 修改

阅读量209

点赞数

文章标签：逻辑回归 kmeans

于 2023-02-11 02:26:46 首次发布

本文链接：https://blog.csdn.net/lichengxiang000/article/details/128979627

版权

五。LogisticRegression总结

一。模型的保存与加载

from sklearn.datasets import load_boston#导入数据
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge#正规方程，梯度下降，岭回归
from sklearn.model_selection import train_test_split#数据分隔
from sklearn.preprocessing import StandardScaler#对数据标准化
from sklearn.metrics import mean_squared_error#均方误差
import joblib#模型的保存与加载
def mylinear():
    lb=load_boston()
    x_train,x_test,y_train,y_test=train_test_split(lb.data,lb.target,test_size=0.25)
    print(y_train,y_test)

    #实例化两个标准化api
    std_x=StandardScaler()
    x_train=std_x.fit_transform(x_train)
    x_test=std_x.transform(x_test)

    std_y=StandardScaler()
    y_train=std_y.fit_transform(y_train.reshape(-1, 1))
    y_test=std_y.transform(y_test.reshape(-1, 1))

    # lr=LinearRegression()#正规方程求解方式预测结果（容易出现过拟合，为了把训练集数据表现更好，可以通过正则化解决-岭回归）
    # lr.fit(x_train,y_train)
    # print(lr.coef_)#coef_为回归系数
    # joblib.dump(lr,"./temp/test.pkl")#保存训练好的模型
    # y_lr_predict=std_y.inverse_transform(lr.predict(x_test))#inverse_transform将标准化后的数据转化为标准化前的数据
    # print("正规方程测试集里面每个房子的预测价格：",y_lr_predict)
    # print("正规方程的均方误差：",mean_squared_error(std_y.inverse_transform(y_test),y_lr_predict))#inverse_transform将标准化后的数据转化为标准化前的数据

    model=joblib.load("./temp/test.pkl")
    y_predict=std_y.inverse_transform(model.predict(x_test))
    print("保存的模型里面每个房子的预测价格：", y_predict)


    sgd=SGDRegressor()#梯度下降去进行房价预测
    sgd.fit(x_train,y_train)
    print(sgd.coef_)
    y_sgd_predict=std_y.inverse_transform(sgd.predict(x_test))
    print("梯度下降测试集里面每个房子的预测价格：",y_sgd_predict)
    print("梯度下降的均方误差：",mean_squared_error(std_y.inverse_transform(y_test),y_sgd_predict))#第一个参数为真实值，第二个为预测值

    rd=Ridge(alpha=1)#岭回归去进行房价预测
    rd.fit(x_train,y_train)
    print(rd.coef_)
    y_rd_predict=std_y.inverse_transform(rd.predict(x_test))#inverse_transform将标准化后的数据转化为标准化前的数据
    print("岭回归测试集里面每个房子的预测价格：",y_rd_predict)
    print("岭回归的均方误差：",mean_squared_error(std_y.inverse_transform(y_test),y_rd_predict))



    return None
if __name__=="__main__":
    mylinear()

二。逻辑回归的定义

逻辑回归是解决二分类问题的利器

输入：h(w)= w_0+〖w_1 x〗_1+w_2 x_2+… = w^T x（单个样本）

三。逻辑回归的损失函数

与线性回归原理相同,但由于是分类问题，损失函数不一样，只能通过梯度下降求解

对数似然损失函数：

完整的损失函数：

cost损失的值越小，那么预测的类别准确度更高

四。逻辑回归-良／恶性乳腺癌肿分类

•sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0)

•Logistic回归分类器

•coef_：回归系数

import numpy as np
from sklearn.linear_model import LogisticRegression#逻辑回归
import pandas as pd
from sklearn.model_selection import train_test_split#数据划分
from sklearn.preprocessing import StandardScaler#标准化
from sklearn.metrics import classification_report#精确率与召回率

def logistic():
    """逻辑回归做二分类进行癌症预测"""
    column = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion', 'Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
    data=pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",names=column)
    print(data.shape)
    data=data.replace(to_replace="?",value=np.nan)
    data=data.dropna()
    print(data.shape)
    x_train,x_test,y_train,y_test=train_test_split(data[column[1:10]],data[column[10]],test_size=0.25)

    std=StandardScaler()
    x_train=std.fit_transform(x_train)
    x_test=std.transform(x_test)

    lg=LogisticRegression(C=1)
    lg.fit(x_train,y_train)
    y_predict=lg.predict(x_test)
    print(lg.coef_)
    print("准确率：",lg.score(x_test,y_test))
    print("召回率",classification_report(y_test,y_predict,labels=[2,4],target_names=["良性","恶性"]))

    # print(data.info())


    return None
if __name__=="__main__":
    logistic()

/Users/lichengxiang/opt/anaconda3/bin/python /Users/lichengxiang/Desktop/python/机器学习/逻辑回归-良／恶性乳腺癌肿分类.py 
(699, 11)
(683, 11)
[[1.4719325  0.51849477 0.70291461 0.73031174 0.01414083 1.17332148
  0.8612629  0.75304823 0.78383278]]
准确率： 0.9590643274853801
召回率               precision    recall  f1-score   support

          良性       0.96      0.98      0.97       115
          恶性       0.96      0.91      0.94        56

    accuracy                           0.96       171
   macro avg       0.96      0.95      0.95       171
weighted avg       0.96      0.96      0.96       171


进程已结束,退出代码0

五。LogisticRegression总结

应用：广告点击率预测、电商购物搭配推荐

优点：适合需要得到一个分类概率的场景

缺点：当特征空间很大时，逻辑回归的性能不是很好（看硬件能力）

六。k-means（非监督学习）步骤

1、随机设置K个特征空间内的点作为初始的聚类中心

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类

中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平

均值）

4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行

第二步过程

七。k-means聚类分析案例

•sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

•k-means聚类

•n_clusters:开始的聚类中心数量

•init:初始化方法，默认为'k-means ++’

•labels_:默认标记的类型，可以和真实值比较（不是值比较）

import pandas as pd
from sklearn.decomposition import PCA#pca主成分分析，特征降维
from sklearn.cluster import KMeans#聚类分析
from matplotlib import pyplot as plt
from sklearn.metrics import silhouette_score#k-means轮廓系数

prior=pd.read_csv("./order_products__prior.csv")
products=pd.read_csv("./products.csv")
orders=pd.read_csv("./orders.csv")
aisles=pd.read_csv("./aisles.csv")

_mg=pd.merge(prior,products,on=["product_id","product_id"])
_mg=pd.merge(_mg,orders,on=["order_id","order_id"])
mt=pd.merge(_mg,aisles,on=["aisle_id","aisle_id"])

# print(mt.head())
# print(mt.info())
# print(len(mt["user_id"].tolist()))
# print(len(set(mt["user_id"].tolist())))

cross=pd.crosstab(mt["user_id"],mt["aisle"])# 交叉表（特殊的分组工具），选出两个属性分别作为index和column
# print(cross)
# print(type(cross))
pca=PCA(n_components=0.9)#进行主成分分析，降维，列数减少，行数不变
data=pca.fit_transform(cross)
# print(data)

x=data[:500]
print(x.shape)
# print(x)

km=KMeans(n_clusters=4)#聚类分析
km.fit(x)#输入x数据，注意x全是特征值，并没有目标值
predict=km.predict(x)#输出预测值，预测值为0-3，一共4个种类，种类数通过n_clusters设置

plt.figure(figsize=(10,10))
colored=["orange","green","blue","purple"]
colr=[colored[i] for i in predict]
plt.scatter(x[:,1],x[:,20],color=colr)
plt.xlabel("1")
plt.ylabel("20")
plt.savefig("./聚类分析.jpg")
plt.show()

print(silhouette_score(x,predict))#评判聚类效果轮廓系数，输入x数据集和predict预测的类号