赛题地址:https://www.datafountain.cn/competitions/353
参考baseline: https://github.com/zhiyumeng/0.81-gensim-keras-baseline
赛题分析:
给定一条金融信息X以及对应的实体集合S, 我们首先要判断该金融信息是否包含负面信息; 如果包含负面信息,需要找出负面信息的主体E。
输入:金融信息
输出:是否包含负面信息(0/1); 负面信息主体的集合E(其中E是S的子集)
第一步其实是简单的二分类问题,第二步需要用到命名实体识别之类的相关技术(比如BERT)。第一次接触NLP,参考上面的baseline,自己稍微做了一些修改,只完成了第一步,也当作以后自己处理情感分析问题的baseline,记录下来以备后面的学习。
主要步骤:
- 利用jieba分词,将中文句子进行分词。在分词的过程需要注意的地方:
①新词的处理,这里的数据集中的词汇都是当下比较新的词汇或者专用的名词,比如"京东白条"、“某某有限公司”,在使用结巴分词的时候需要将这些新词加入分词词库,这里主要是以训练集和测试集的实体集合形成新的词典集合;
②停用词处理,“的”、“这些”之类无实际意义的词语。
③中英文标点、杂乱字符、数字需要删掉。 - 使用word2vec模型训练,将中文词语转为向量。
- 然后送入lstm中训练,使用双向LSTM
通过上面可以看出,在验证集上的表现已经非常好了,也就是第一步负面信息的判定做的比较好。
代码
import os
from os.path import join
from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary
import keras
from keras import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Bidirectional, LSTM, Dense, Embedding, Dropout, Activation, Softmax
from sklearn.model_selection import train_test_split
from keras.utils import np_utils
import pickle as pkl
from os.path import join
import pandas as pd
from conf import conf
import gensim
import jieba
from tqdm import tqdm
from google.colab import drive
drive.mount('/content/gdrive')
#将此处改为自己的数据存放路径
DATA_DIR = '/content/gdrive/My Drive/data/sentiment'
print(os.listdir(DATA_DIR))
TrainDataPath = join(DATA_DIR, 'Train_Data.csv')
TestDataPath = join(DATA_DIR, 'Test_Data.csv')
import re
# 该函数是我从网上找到的,用于判断一个字符串是否为浮点数,有bug,这里应该可以用
def is_number(num):
pattern = re.compile(r'^[-+]?[-0-9]\d*\.\d*|[-+]?\.?[0-9]\d*$')
result = pattern.match(num)
if result:
return True
else:
return False
# 中文分词
def cut_data(sentences, stop_words):
sentences_seg = []
for i in sentences:
res = []
tmpres = jieba.lcut(i)
for j in tmpres: # 分词结果进行筛选,停用词,数字,单字
if(j not