【数据竞赛】“达观杯”文本智能处理挑战赛4

最新推荐文章于 2022-09-12 14:29:52 发布

__盛夏光年__

最新推荐文章于 2022-09-12 14:29:52 发布

阅读量163

点赞数

分类专栏： NLP 文章标签：文本处理 Logistic Regression SVM

本文链接：https://blog.csdn.net/u012736685/article/details/89203621

版权

机器学习实践同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

NLP

10 篇文章 2 订阅

订阅专栏

一、逻辑回归

逻辑回归（Logistic Regression, LR）是一种常用的处理两类分类问题的线性模型。

1、概率估计

LR 模型计算输入特征的加权和（加上偏差项），之后将中间结果输入 logistic() 函数进行二次加工后输出。

逻辑回归模型的概率估计（向量形式）
$\hat{p}=h_\theta(x)=\sigma(\theta^T·x)$
其中， $\sigma()$ 表示 logistic 函数（也称 logit 函数）
$\sigma(t)=\frac{1}{1+e^{-t}}$
在这里插入图片描述
一旦 logistic 回归模型估计得到了 $X$ 属于正类的概率 $\hat{p}=h_\theta(x)$ ，则很容易得到预测结果 $\hat{y}$ 。

逻辑回归预测模型
$\hat{y}=\begin{cases} 0, \ \ \ \ \hat{p}<0.5\\ 1,\ \ \ \ \hat{p}\geq0.5\end{cases}$

2、训练和损失函数

注：该部分以手写笔记为主

逻辑回归的损失函数（对数损失）
$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_\theta(x_i))+(1-y^{(i)})log(1-h_\theta(x_i))]$

损失函数关于第 $j$ 个模型参数 $\theta_j$ 的偏导数
$\frac{\partial}{\partial\theta_j}J(\theta_j)=\frac{1}{m}\sum_{i=1}^{m}(\sigma(\theta^T·X^{(i)})-y^{(i)})x_j^{(i)}$

二、Softmax回归

Logistic回归扩展到多分类==》Softmax回归

1、原理

思路：给定实例 $x$ 时，Softmax回归模型先计算 $k$ 类的分数 $s_k(x)$ ，然后将分数应用到 Softmax函数，估计出每类的概率。将估计概率最高（它只是得分最高的类）的类别作为预测结果。

softmax函数：估计样本属于第 $k$ 类的概率 $\hat{p}_k=\sigma(s(x))_k=\frac{exp(s_k(x))}{\sum_{j=1}^{K}exp(s_j(x))}$
其中：
$s_k(x)=\theta_k^T·x$
其中， $K$ 表示类别的个数；需要注意的是 $θ_k$ 说明每个类别对应有自己的 $θ$ ，所有 $θ_k$ 组合起来是全部的参数。 $s (x)$ 表示包含样本 $x$ 每一类得分的向量； $\sigma(s(x))_k$ 表示给定每一类分数之后，实例 $x$ 属于第 $k$ 类的概率。

注意：softmax回归分类器一次只能预测一个类（智能用于互斥的类别，不能用于多标签）

2、训练

目标：建立一个模型在目标类别上有较高的概率。
==》损失函数：交叉熵（衡量待测类别与目标类别的匹配程度）
$J(\theta)=-\frac{1}{m}\sum_{i=1}^m\sum_{k=1}^Ky_k^{(i)}log(\hat{p}_k^{(i)})$
若对于第 $i$ 个实例的目标类是 $k$ ，那么 $y_k^{(i)}=1$ ，反之 $y_k^{(i)}=0$ 。

计算每一类的梯度向量，然后采用梯度下降（或其他优化算法）找到使损失函数达到最小值的参数矩阵 $\theta$ 。
$k$ 类交叉熵关于 $\theta_k$ 的梯度向量：
$\nabla_{\theta_k}J(\theta)=\frac{1}{m}\sum_{i=1}^{m}(\hat{p}_k^{(i)}-y_k^{(i)})x^{(i)}$

三、SVM

自己之前的博文：用Scikit-learn和TensorFlow进行机器学习（五）

四、实现

１、LR

# -*- coding: utf-8 -*-
import pickle
from sklearn.linear_model.logistic import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

fp = open('./features/data_tfidf_train.pkl', 'rb')
x_train,y_train = pickle.load(fp)
x_train, x_test, y_train, y_test = train_test_split(x_train, y_train, test_size=0.3, random_state=2019)

lr = LogisticRegression(C = 120, dual = True)
lr.fit(x_train, y_train)
y_predict = lr.predict(x_test)
print("Logistic Regression F1 score: ",f1_score(y_test, y_predict, average='micro')

输出结果
在这里插入图片描述

２、SVM

svm = LinearSVC(C = 5, dual = False)
svm.fit(x_train, y_train)
y_predict = svm.predict(x_test)
print("SVM F1 Score: ",f1_score(y_test, y_predict, average='micro'))

输出结果
在这里插入图片描述

__盛夏光年__

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【数据竞赛】“达观杯”文本智能处理挑战赛4

一、逻辑回归逻辑回归（Logistic Regression, LR）是一种常用的处理两类分类问题的线性模型。1、概率估计LR 模型计算输入特征的加权和（加上偏差项），之后将中间结果输入 logistic() 函数进行二次加工后输出。逻辑回归模型的概率估计（向量形式）p^=hθ(x)=σ(θT⋅x)\hat{p}=h_\theta(x)=\sigma(\theta^T·x)p^=hθ...
复制链接

扫一扫

专栏目录