机器学习
文章平均质量分 85
本专栏是博主机器学习的学习笔记,专栏内容包括各种机器学习模型的详解与实现。
斯曦巍峨
CS专业在读研究僧。
展开
-
K-Means牛刀小试之文档聚类
注:本文中介绍的tfidf矩阵,余弦距离计算等概念倘若有不清晰的,可以先去看看博主的前一篇文章:利用余弦距离比较文档间的相似度一.K-Means算法的实现思路1.1 初始化K个中心点对于最初的k个中心结点的选取,采用的是随机选取的方式,首先是定义一个索引列表,然后根据文档的数量来生成随机数,当随机生成的索引不在索引列表中时将其添加到索引数组中去直至找齐k个中心结点的索引为止,然后利用索引去文档中找出对应的k个中心点,代码实现如下:def randPick(k,matrix): """原创 2020-07-15 23:27:42 · 1460 阅读 · 0 评论 -
利用余弦距离比较文档间的相似度
一.数据说明在进行正式的操作之前,我想对后续进行处理的数据进行说明,首先,我在新浪网上爬取了中文体育新闻网页若干并提取了对应页面中的新闻内容,然后进行了中文分词(jieba)和删除停用词操作,最后处理的结果展示如下如所示:注意:后续的操作都是在经过上述步骤处理的文档基础上!!!二.根据文档建立词频矩阵2.1 什么是词频?词频(Term Frequency,tf)指某个词(term)在文章中出现次数,若某个词(不包括停用词)在文章中出现的频率很高,则说明这个词可能比较重要。2.2 sklearn原创 2020-06-28 17:54:18 · 1888 阅读 · 0 评论 -
机器学习(七):解读感知机模型
一.前言神经网络算法属于机器学习领域中比较热门的内容,而谈到神经网络算法的历史,就不得不提到M-P神经元和基于其构建的感知机模型,虽然该算法有巨大的不足,但是对于我们深入理解复杂的神经网络也是很有帮助的,为此本文聚焦于感知机模型的解读及其实现,话不多说,请看下文。二.算法详解2.1 神经元在正式介绍感知机前,需要先了解神经元的概念。我们知道,生物神经网络是由一个个神经元构成的,每个神经元都具有多个树突和一个轴突,其中树突用来接受信息,轴突可以通过尾端的轴突末梢(即突触)跟其他神经元的树突连接进行信号原创 2022-02-19 22:09:58 · 2409 阅读 · 0 评论 -
机器学习(六):朴素贝叶斯及拉普拉斯修正
一.前言2022年的第一篇博客,《机器学习》这个专栏去年由于自己的时间原因,更新的不勤,乘最近稍微有点时间准备开始陆陆续续更新,今天先来一道开胃菜:带拉普拉斯修正的朴素贝叶斯,话不多说请看下文。二.贝叶斯定理在正式介绍朴素贝叶斯算法之前先介绍下与其息息相关的贝叶斯定理(参考维基百科),其数学形式如下所示:P(A∣B)=P(A)P(B∣A)P(B)P(A|B) = \frac{P(A)P(B|A)}{P(B)}P(A∣B)=P(B)P(A)P(B∣A)在贝叶斯定理中:P(A∣B)P(A|B原创 2022-01-10 11:00:11 · 4431 阅读 · 0 评论 -
机器学习(五):深入浅出PCA降维
一.前言PCA可以说是业界使用的非常频繁的机器学习方法了,今天博主带领大家深入浅出PCA模型,相信看完本文你会对PCA有一个更加深刻的理解。话不多说,请看下文!!!二.理论介绍2.1 什么是PCAPCA的英文全称是Principal Component Analysis,即主成分分析,它是一种常用的数据降维方法。数据降维指的是将高维空间中的数据在低维空间中进行表示,同时尽可能较少信息损失。通过数据降维可以提取合适的特征表示并避免维数灾难,数据降维在可视化方面也有着广泛的应用。周志华的西瓜书中指出原创 2021-11-14 10:33:55 · 2292 阅读 · 0 评论 -
机器学习(四):数据集中常用的骚操作
前言最近好久每更新过博客了,趁着今年的尾巴进行今年的最后一更,也算是为今年收个尾吧。之前写机器学习的博客都是直接对算法进行剖析与实现,今天我想分享的是机器学习中进行模型训练前常用的一些操作,希望能对大家有所帮助!!!一.加载数据集本文中使用的数据集为鸢尾花卉数据集,该数据集的介绍可以参考我之前的博客机器学习(三):一文读懂线性判别分析(LDA),后面的所有操作都是基于该数据集的。首先利用pandas库加载该数据集,为了方便理解,我还额外输出了该数据集的一些常规属性:import pandas as原创 2020-12-22 10:35:07 · 1263 阅读 · 0 评论 -
机器学习(三):一文读懂线性判别分析(LDA)
一.什么是线性判别分析?线性判别分析(Linear Discriminant Analysis,LDA)的一种经典的线性学习方法(属于监督学习),这里先借用周志华教授的《机器学习》中的图片来做一个直观的展示:正如该图中展示的那样,LDA需要寻找一条合适的直线y=wTxy=w^Txy=wTx,使得数据集中的样例投影到该直线时同类样例的投影点尽可能接近,不同类样例的投影点尽可能远离,这样一来就可以对新样例进行分类了,具体做法同样是先将新样例投影到该直线上,然后根据投影点的位置来判断样本的类别。但是实际上L原创 2020-11-18 21:05:30 · 14429 阅读 · 7 评论 -
机器学习(二):白话对数几率回归(logistic regression)
一.对数几率回归的定义1.1 广义线性模型在之前的机器学习(一):深入解析线性回归模型一文中所介绍的线性模型都是基于y=wTx+by=w^Tx+by=wTx+b这种形式的。但对于某些数据集虽然其自变量xxx与因变量yyy并不满足一元函数关系,但是可以通过某些函数g(.)g(.)g(.)让输入空间xxx到输出空间yyy的非线性函数映射转换成输入空间xxx到输出空间g(y)g(y)g(y)的线性函数映射,即:y=g−1(wTx+b)y=g^{-1}(w^Tx+b)y=g−1(wTx+b)其中,g(.原创 2020-10-29 13:45:30 · 1625 阅读 · 0 评论 -
机器学习(一):深入解析线性回归模型
一.线性回归的基本概念1.1 什么是回归问题?回归是应用于经济,投资等领域的一种统计学方法,它尝试确定一个因变量(通常由yyy表示)与一系列其他变量(称为自变量,通常用xxx表示)之间关系,然后通过这个关系来进行相关的预测,例如我们根据一个地区的若干年的PM2.5数值变化来估计某一天该地区的PM2.5值大小。也就是说,回归问题就是确定一个模型fff,使得y=f(x)y=f(x)y=f(x)。若yyy与xxx之间是一次函数关系,则称其为线性回归问题(狭义上的)。1.2 一元线性回归给定一个数据集D=(原创 2020-10-25 18:33:44 · 1518 阅读 · 4 评论