机器学习必刷题-手撕推导篇(1)：逻辑回归与kmeans

最新推荐文章于 2024-01-31 19:45:10 发布

wuli小萌哥

最新推荐文章于 2024-01-31 19:45:10 发布

阅读量748

点赞数 3

分类专栏：机器学习面试题文章标签：机器学习深度学习面试题逻辑回归 kmeans

本文链接：https://blog.csdn.net/u012416259/article/details/98322315

版权

机器学习面试题专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本系列文章对常见的机器学习面试题进行了搜集、分类和整理，主要包括”手撕推导篇“、“模型比较篇”、“工程经验篇”以及“基础概念篇”等多个板块，旨在帮助广大算法工作者能够从容应对求职面试！

手撕逻辑回归

手写k-means算法

1.算法原理：

(1) 初始随机选取k个中心点；

(2) 遍历每个样本，选取距离每个样本最近的中心点，归为该类；

(3) 更新中心点为每类的均值；

(4) 重复(2)(3)迭代更新，直至误差小到某个值或者到达一定的迭代步数.

2.伪代码

3.代码实现(python)

def kmeans(k):
    m, n = 100, 20  # 构造样本：100行、20列
    x = 10 * np.random.random((m, n))
    
    # 随机选择k个初始中心点
    init_cent_sample = set()
    while len(init_cent_sample) < k:
        init_cent_sample.add(np.random.randint(0, m))
    cent = x[list(init_cent_sample)]
    
    # 记录每个样本的类归属
    cluster_assessment = np.zeros((m, 2))
    
    # 记录每个类的中心点在本次迭代后是否有过改变
    cent_changed = True
    while cent_changed:
        cent_changed = False
        
        for j in range(m):
            # 记录每个样本距离最近的类
            min_inx = -1
            # 记录每个样本的最小类距
            min_dist = math.inf
            
            for i in range(k):
                d = distance(x[j], cent[i])
                if d < min_dist:
                    min_dist = d
                    min_inx = i
            
            # 记录此样本的中心点是否发生变化
            if min_inx != cluster_assessment[j][0]:
                cluster_assessment[j] = np.array([min_inx, min_dist])
                cent_changed = True
        print(cluster_assessment)
        
        # 更新每个类的中心点：均值
        for i in range(k):
            cent_i_samples = np.where(cluster_assessment[:, 0] == i)
            if len(cent_i_samples) > 0:
                print(cent_i_samples)
                cent[i] = np.mean(x[cent_i_samples], axis=0)


# 计算距离
def distance(a, b):
    return math.sqrt(sum(pow(a - b, 2)))

在这里插入图片描述

wuli小萌哥

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习必刷题-手撕推导篇(1)：逻辑回归与kmeans

本系列文章对常见的机器学习面试题进行了搜集、分类和整理，主要包括”手撕推导篇“、“模型比较篇”、“工程经验篇”以及“基础概念篇”等多个板块，旨在帮助广大算法工作者能够从容应对求职面试！手撕逻辑回归手写k-means算法1.算法原理：(1) 初始随机选取k个中心点；(2) 遍历每个样本，选取距离每个样本最近的中心点，归为该类；(3) 更新中心点为每类的均值；(4) 重复(2)(3...
复制链接

扫一扫