CCF 金融信息负面及主体判定

赛题地址:https://www.datafountain.cn/competitions/353
参考baseline: https://github.com/zhiyumeng/0.81-gensim-keras-baseline

赛题分析:

给定一条金融信息X以及对应的实体集合S, 我们首先要判断该金融信息是否包含负面信息; 如果包含负面信息,需要找出负面信息的主体E。
输入:金融信息
输出:是否包含负面信息(0/1); 负面信息主体的集合E(其中E是S的子集)
第一步其实是简单的二分类问题,第二步需要用到命名实体识别之类的相关技术(比如BERT)。第一次接触NLP,参考上面的baseline,自己稍微做了一些修改,只完成了第一步,也当作以后自己处理情感分析问题的baseline,记录下来以备后面的学习。

主要步骤:

  1. 利用jieba分词,将中文句子进行分词。在分词的过程需要注意的地方:
    ①新词的处理,这里的数据集中的词汇都是当下比较新的词汇或者专用的名词,比如"京东白条"、“某某有限公司”,在使用结巴分词的时候需要将这些新词加入分词词库,这里主要是以训练集和测试集的实体集合形成新的词典集合;
    ②停用词处理,“的”、“这些”之类无实际意义的词语。
    ③中英文标点、杂乱字符、数字需要删掉。
  2. 使用word2vec模型训练,将中文词语转为向量。
  3. 然后送入lstm中训练,使用双向LSTM
    在这里插入图片描述
    通过上面可以看出,在验证集上的表现已经非常好了,也就是第一步负面信息的判定做的比较好。

代码

import os
from os.path import join
from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary
import keras
from keras import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Bidirectional, LSTM, Dense, Embedding, Dropout, Activation, Softmax
from sklearn.model_selection import train_test_split
from keras.utils import np_utils
import pickle as pkl
from os.path import join
import pandas as pd
from conf import conf
import gensim
import jieba
from tqdm import tqdm
from google.colab import drive
drive.mount('/content/gdrive')
#将此处改为自己的数据存放路径
DATA_DIR = '/content/gdrive/My Drive/data/sentiment'
print(os.listdir(DATA_DIR))
TrainDataPath = join(DATA_DIR, 'Train_Data.csv')
TestDataPath = join(DATA_DIR, 'Test_Data.csv')



import re
# 该函数是我从网上找到的,用于判断一个字符串是否为浮点数,有bug,这里应该可以用
def is_number(num):
  pattern = re.compile(r'^[-+]?[-0-9]\d*\.\d*|[-+]?\.?[0-9]\d*$')
  result = pattern.match(num)
  if result:
    return True
  else:
    return False

# 中文分词
def cut_data(sentences, stop_words):
    sentences_seg = []
    for i in sentences:     
        res = []
        tmpres = jieba.lcut(i)
        for j in tmpres: # 分词结果进行筛选,停用词,数字,单字
           if(j not 
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值