NLP-使用CNN进行文本分类

最新推荐文章于 2024-05-05 14:44:55 发布

spring_willow

最新推荐文章于 2024-05-05 14:44:55 发布

阅读量2w

点赞数 17

分类专栏： NLP之路文章标签： CNN 卷积神经网络文本分类 word2vec

本文链接：https://blog.csdn.net/spring_willow/article/details/80011161

版权

这里写图片描述
图片来源：Convolutional Neural Networks for Sentence Classification

上述模型中是将每个单词作为一个特征向量，使用了二维和三维的卷积核进行Filter，我们也可以使用一整个句子作为特征向量，用一维的Filter进行扫描(1xN)，如下图所示：
这里写图片描述
图片来源：七月在线视频课件(包括下图，原始来源我母鸡的了)

这里写图片描述

用每日新闻预测金融市场变化

题目来源：Kaggle竞赛
代码作者：加号

Combined_News_DJIA.csv: 作者将数据combine成27列，第一列是日期，第二列是标签，其他25列是每日的前25条新闻，通过热门程度进行排序得来。
这是一个二分类问题，‘1’表示这一天的股票值上升或保持不变；‘0’表示下降。
训练集和测试集的比例是8:2

①导入所需要的库

import pandas as pd
import numpy as np
from sklearn.metrics import roc_auc_score
from datetime import date

②读入数据

data = pd.read_csv('./Combined_News_DJIA.csv')

可以通过data.head()查看数据的长相
③分割数据集

train = data[data['Date'] < '2015-01-01']
test = data[data['Date'] > '2014-12-31']

④处理数据集

最低0.47元/天解锁文章

关注

专栏目录