NLP学习笔记17-机器学习

最新推荐文章于 2023-06-12 15:21:08 发布

bohu83

最新推荐文章于 2023-06-12 15:21:08 发布

阅读量202

点赞数 1

分类专栏： NLP 文章标签：机器学习经典算法模型构建训练数据

本文链接：https://blog.csdn.net/bohu83/article/details/113360560

版权

NLP 专栏收录该内容

76 篇文章 24 订阅

订阅专栏

本文介绍了机器学习的基础概念，包括有监督学习和无监督学习。有监督学习关注通过训练数据构建模型，如线性回归、逻辑回归等，并以情感分析为例说明其应用。无监督学习则侧重于数据的分析和聚类，如K-means。此外，讨论了生成模型和判别模型的区别。在建模流程中，数据清洗和特征工程至关重要。最后，提到了端到端学习简化了传统流程，但可能牺牲部分性能。

摘要由CSDN通过智能技术生成

一序

本文属于贪心NLP学习笔记系列。从本节课开始进入机器学习的章节。

之前的两个分支之一：基于概率的系统（Probabilistic），主要是学习出数据与标签之间的映射关系。

二机器学习

定义：自动从已有的数据里找出一规律，然后把学到的这些规律应用到对未来数据（future data）的预测中，或者在不确定环境下自动地做一些决策。

两大流派：<1>有监督的(Supervised Learning,即我们有一些训练数据，通过训练数据去构建一个模型)、无监督的(unsupervised Learning)

<2>生成模型(generative model)、判别模型(discriminative)

实际工作中，最常见的学习还是有监督学习。（现实中年无监督学习效果没那么好）

监督学习：训练集数据包含x(特征向量)，Y(标签label)，我们想学出X到Y的对应关系F()，

以情感分析为例，下图解释的有监督训练的模型:

首先，给定一个语料库(即训练数据)，该语料库包含文本(x)及其情感倾向判断结果(y),通过训练语料库，得到函数f,用来进行判别用户新的输入的情感倾向

监督学习模型 Supervised Learning Algorithms

·线性回归（Linear Regression）
·逻辑回归（Logistic Regression）
·朴素贝叶斯（Naive Bayes）
·神经网络（Neural Network）
·SVM（Support Vector Machine）
·随机森林（Random Forest）
·Adaboost
·CNN（Convolutional Neural Network）

目前为止，这些经典算法听完还是一堆术语。跟之前不学这个课相比，就是知道属于监督学习模型。

无监督学习

所给的训练数据只包含x,不含有y，所以很显然学不到f(x->y)的过程。

更多的是对数据的分析，通过聚类的方法使数据有个直观的分析。比如再营销上。

常用的无监督学习的算法 Unsupervised Learning Algorithms

·K-means （聚类）
·PCA(Principal Component Analysis) （降维）
·ICA(Independent Component Analysis) （降维）
·MF(Matrix Factorization) 矩阵分解常用再推荐系统
·LSA(Latent Semantic Analysis)
·LDA(Latent Dirichlet Allocation)

使用之前，要深入了解算法的理念是什么，可能会遇到什么问题。

生成模型(generative model)和判别模型(discriminative model)

生成模型通过已经训练好的模型，可以用来生成图片、音乐、文本等，例如生成模型会学习猫、狗的特征，再利用学到的特征去判断用户输入的是猫或狗的概率P。

生成模型是记住细节，而叛逆别模型是记住区别。

从数学角度来看，生成模型是最大化P(X)或者最大化P(X|Y).

而判别模型是，判别模型是最大化