机器学习基础5

最新推荐文章于 2022-05-19 09:03:34 发布

CPX_279

最新推荐文章于 2022-05-19 09:03:34 发布

阅读量254

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_39805079/article/details/112384145

版权

机器学习基础5

分类算法
非监督学习
- k-means算法（聚类）
- - K-means API
  - K-means性能评估指标API

分类算法

逻辑回归

逻辑回归主要用来解决二分类问题
在这里插入图片描述
sigmoid函数

大于阈值推测为1类，否则为0类

逻辑回归的损失值 在这里插入图片描述
h = -log2§

h = -log2(1-P)

逻辑回归也要标准化

sklearn逻辑回归API

sklearn.linear_model.LogisticRegression(penalty=‘l2’, C = 1.0

良性/恶性肿瘤数据
原始数据的下载地址：
https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data
数据描述
（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤
相关的医学特征，最后一列表示肿瘤类型的数值。
（2）包含16个缺失值，用”?”标出。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

def logistic():
    """
    逻辑回归肿瘤分类
    :return: None
    """
    # 构造列标签
    column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion','Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']
    data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data", names=column_names)
    print(data)
    # 缺失值进行处理 将？替换成nan
    data = data.replace(to_replace='?', value=np.nan)
    # 默认将nan去除
    data = data.dropna()
    # 数据分割
    x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]], data['Class'], test_size=0.25)
    # 进行标准化处理
    std = StandardScaler()
    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 逻辑回归预测
    lg = LogisticRegression(C=1.0)
    lg.fit(x_train,y_train)
    y_predict = lg.predict(x_test)
    print(lg.coef_)
    print("准确率", lg.score(x_test, y_test))
    print("召回率",classification_report(y_test, y_predict,
    labels=[2,4],target_names=['良性', '恶性']))
    return None


if __name__ == "__main__":
    logistic()

输出结果：
     Sample code number  Clump Thickness  ...  Mitoses  Class
0               1000025                5  ...        1      2
1               1002945                5  ...        1      2
2               1015425                3  ...        1      2
3               1016277                6  ...        1      2
4               1017023                4  ...        1      2
..                  ...              ...  ...      ...    ...
694              776715                3  ...        1      2
695              841769                2  ...        1      2
696              888820                5  ...        2      4
697              897471                4  ...        1      4
698              897471                4  ...        1      4

[699 rows x 11 columns]
[[ 1.51959989  0.22055897  0.91249926  0.53159794 -0.10366186  1.32077445
   1.00800169  1.04509693  0.74158942]]
准确率 0.9649122807017544
召回率               precision    recall  f1-score   support

          良性       0.97      0.97      0.97       105
          恶性       0.95      0.95      0.95        66

    accuracy                           0.96       171
   macro avg       0.96      0.96      0.96       171
weighted avg       0.96      0.96      0.96       171

逻辑回归总结
应用：广告点击率预测、电商购物搭配推荐（二分类）
优点：适合需要得到一个分类概率的场景
缺点：当特征空间很大时，逻辑回归的性能不是很好（看硬件能力），不能很好处理二分类

softmax方法-逻辑回归在多分类问题上的推广

生成模型和判别模型

非监督学习

k-means算法（聚类）

把数据分为k类（知道/不知道）
分类过程：
1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类
中心点作为标记类别
3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平
均值）
4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行
第二步过程

K-means API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)
k-means聚类
n_clusters:开始的聚类中心数量
init:初始化方法，默认为'k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

k-means性能评估指标
在这里插入图片描述
注：对于每个点𝑖 为已聚类数据中的样本，𝑏𝑖 为𝑖 到其它族群的所有样本的平均
距离，𝑎𝑖 为𝑖 到本身簇的距离平均值
最终计算出所有的样本点的轮廓系数平均值

如果𝑠𝑐𝑖 小于0，说明𝑎𝑖 的平均距离大于最近的其他簇。
聚类效果不好
如果𝑠𝑐𝑖 越大，说明𝑎𝑖 的平均距离小于最近的其他簇。
聚类效果好

轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

K-means性能评估指标API

sklearn.metrics.silhouette_score

sklearn.metrics.silhouette_score(X, labels)
计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值

K-means分析：
采用迭代式算法，直观易懂并且非常实用
缺点：容易收敛到局部最优解(多次聚类)
需要预先设定簇的数量(k-means++解决)

CPX_279

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫