2024年最全知识图谱-LSTM+CRF人物关系抽取实战(3)，面试阿里P7岗

2401_84910839

于 2024-05-15 07:47:18 发布

阅读量492

点赞数 9

文章标签： go 学习面试

本文链接：https://blog.csdn.net/2401_84910839/article/details/138888206

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

长 B-SUBJECT
孙 I-SUBJECT
无 I-SUBJECT
忌 I-SUBJECT
看 O
到 O
外 B-PREDICATE
甥 I-PREDICATE
承 B-OBJECT
乾 I-OBJECT
、 O
李 B-OBJECT
泰 I-OBJECT
都 O
完 O
了 O
。 O

唐 B-SUBJECT
玄 I-SUBJECT
宗 I-SUBJECT
有 O
两 O
个 O
同 O
母 O
妹 B-PREDICATE
妹 I-PREDICATE
： O
金 B-OBJECT
仙 I-OBJECT
公 I-OBJECT
主 I-OBJECT
和 O
玉 B-OBJECT
真 I-OBJECT
公 I-OBJECT
主 I-OBJECT
。 O

...此处省略n多

李 B-SUBJECT
文 I-SUBJECT
有 O
两 O
个 O
妹 B-PREDICATE
妹 I-PREDICATE
， O
一 O
个 O
叫 O
宇 B-OBJECT
宇 I-OBJECT
， O
一 O
个 O
叫 O
佳 B-OBJECT
佳 I-OBJECT
。 O

四、实战

1、数据预处理

1.1 词典映射

主要是低频词过滤字与id的映射（word2id）、预测类别与id的映射（lable2id），具体实现方式各有不同，不做重点讲解，但要特别注意未登录词的处理：

 word_size = len(words)
 word2id = {count[0]: index for index, count in enumerate(words,start=1)}  
 id2word = {index: count[0] for index, count in enumerate(words,start=1)}
 tag2id = {count[0]: index for index, count in enumerate(tags)}
 id2tag = {index: count[0] for index, count in enumerate(tags)}
 # 填充词
 word2id['<PAD>'] = 0
# 未登录词
 word2id['<UNK>'] = word_size + 1

1.2 从训练文件中获取句子和标签

def getSentencesAndTags(filePath):
    '''
 从文件里面获取句子和标注
 :param filePath:
 :return:
 '''
    with open(filePath,encoding='utf-8') as file:
        wordsAndtags=[line.split() for line in file]
        sentences=[]
        tags=[]
        sentence=[]
        tag=[]
        for wordAndTag in wordsAndtags:
            if len(wordAndTag)==2:
                sentence.append(wordAndTag[0])
                tag.append(wordAndTag[1])
            else:
                sentences.append(sentence)
                tags.append(tag)
                sentence=[]
                tag = []
    return sentences,tags

1.3 输入文本转id

将输入的文本，通过词典，转换成数字序列：

def sentencesAndTags2id(sentences,tags,word2id, tag2id):
    '''
 将句子和标注转换为id
 :param sentences:
 :param tags:
 :param word2id:
 :param tag2id:
 :return:
 '''
    sentencesIds = [[word2id.get(char,len(word2id)) for char in sentence] for sentence in sentences]
    tagsIds = [[tag2id[char] for char in tag] for tag in tags]
    return sentencesIds,tagsIds

1.4 数据填充

为了保证数据的维度一致，进行句子填充

from keras_preprocessing.sequence import pad_sequences
sentencesIds = pad_sequences(sentencesIds, padding='post')
tagsIds = pad_sequences(tagsIds, padding='post')

2、模型构建

def model(vocabSize,embeddingDim,inputLength,tagSize):
    model = Sequential()
    model.add(Embedding(vocabSize + 1,embeddingDim,input_length=inputLength,mask_zero=True))
    model.add(Bidirectional(LSTM(50, return_sequences=True)))
    model.add(TimeDistributed(Dense(tagSize)))
    crf_layer = CRF(tagSize, sparse_target=True)
    model.add(crf_layer)
    model.compile('adam', loss=crf_layer.loss_function, metrics=[crf_layer.accuracy])
    model.summary()
    return model

3、测试

通过简单的测试结果如下：

比较简单的句子上都能取得比较好的成果，但是由于训练数据不够，还是会出现无法抽取到结果或者抽取错误的情况，比如：

4、总结

本文主要针对历史故事的人物关系进行抽取，从数据获取，到数据标注，到模型训练。由于时间和人力关系，很多方面都采取了简单模式，比如数据标注，数据量远远没有达到一个量级，比如测试环节，主要还是通过人为观察抽取结果来验证是否准确，无法达到工业级别。但对于三元组的抽取，可以作为一种参考和借鉴。

特别说明:鉴于好多童鞋使用代码，但是运行不起来，在这里说明一下代码的版本情况

tensorflow=1.14.0
keras=2.2.4
keras-contrib=2.0.8
keras-contrib安装参考：https://github.com/keras-team/keras-contrib

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

f84-1715730414902)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

2401_84910839

关注

9
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
2024年最全知识图谱-LSTM+CRF人物关系抽取实战(3)，面试阿里P7岗

本文主要针对历史故事的人物关系进行抽取，从数据获取，到数据标注，到模型训练。由于时间和人力关系，很多方面都采取了简单模式，比如数据标注，数据量远远没有达到一个量级，比如测试环节，主要还是通过人为观察抽取结果来验证是否准确，无法达到工业级别。但对于三元组的抽取，可以作为一种参考和借鉴。
复制链接

扫一扫