CCF 金融信息负面及主体判定

最新推荐文章于 2021-03-04 16:10:28 发布

alwaysxk

最新推荐文章于 2021-03-04 16:10:28 发布

阅读量1.4k

点赞数 1

分类专栏：机器学习文章标签： CCF ML

本文链接：https://blog.csdn.net/alwaysxk/article/details/102516572

版权

赛题地址：https://www.datafountain.cn/competitions/353
参考baseline: https://github.com/zhiyumeng/0.81-gensim-keras-baseline

赛题分析：

给定一条金融信息X以及对应的实体集合S, 我们首先要判断该金融信息是否包含负面信息；如果包含负面信息，需要找出负面信息的主体E。
输入：金融信息
输出：是否包含负面信息（0/1）；负面信息主体的集合E(其中E是S的子集)
第一步其实是简单的二分类问题，第二步需要用到命名实体识别之类的相关技术（比如BERT）。第一次接触NLP，参考上面的baseline，自己稍微做了一些修改，只完成了第一步，也当作以后自己处理情感分析问题的baseline，记录下来以备后面的学习。

主要步骤：

利用jieba分词，将中文句子进行分词。在分词的过程需要注意的地方：
①新词的处理，这里的数据集中的词汇都是当下比较新的词汇或者专用的名词，比如"京东白条"、“某某有限公司”，在使用结巴分词的时候需要将这些新词加入分词词库，这里主要是以训练集和测试集的实体集合形成新的词典集合；
②停用词处理，“的”、“这些”之类无实际意义的词语。
③中英文标点、杂乱字符、数字需要删掉。
使用word2vec模型训练，将中文词语转为向量。
然后送入lstm中训练，使用双向LSTM

通过上面可以看出，在验证集上的表现已经非常好了，也就是第一步负面信息的判定做的比较好。

代码

import os
from os.path import join
from gensim.models.word2vec import Word2Vec
from gensim.corpora.dictionary import Dictionary
import keras
from keras import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Bidirectional, LSTM, Dense, Embedding, Dropout, Activation, Softmax
from sklearn.model_selection import train_test_split
from keras.utils import np_utils
import pickle as pkl
from os.path import join
import pandas as pd
from conf import conf
import gensim
import jieba
from tqdm import tqdm
from google.colab import drive
drive.mount('/content/gdrive')
#将此处改为自己的数据存放路径
DATA_DIR = '/content/gdrive/My Drive/data/sentiment'
print(os.listdir(DATA_DIR))
TrainDataPath = join(DATA_DIR, 'Train_Data.csv')
TestDataPath = join(DATA_DIR, 'Test_Data.csv')



import re
# 该函数是我从网上找到的，用于判断一个字符串是否为浮点数，有bug，这里应该可以用
def is_number(num):
  pattern = re.compile(r'^[-+]?[-0-9]\d*\.\d*|[-+]?\.?[0-9]\d*$')
  result = pattern.match(num)
  if result:
    return True
  else:
    return False

# 中文分词
def cut_data(sentences, stop_words):
    sentences_seg = []
    for i in sentences:     
        res = []
        tmpres = jieba.lcut(i)
        for j in tmpres: # 分词结果进行筛选，停用词，数字，单字
           if(j not

最低0.47元/天解锁文章

alwaysxk

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CCF 金融信息负面及主体判定

赛题地址：https://www.datafountain.cn/competitions/353参考baseline: https://github.com/zhiyumeng/0.81-gensim-keras-baseline赛题分析：给定一条金融信息X以及对应的实体集合S, 我们首先要判断该金融信息是否包含负面信息；如果包含负面信息，需要找出负面信息的主体E。输入：金融信息输出...
复制链接

扫一扫

专栏目录