【10】知识图谱实战案例（动手做）

铁盒薄荷糖

已于 2024-02-26 16:07:58 修改

阅读量5.3k

点赞数 25

分类专栏： # 课件-知识图谱实战文章标签：知识图谱人工智能

于 2024-02-26 11:13:03 首次发布

本文链接：https://blog.csdn.net/m0_37932764/article/details/136192824

版权

课件-知识图谱实战专栏收录该内容

20 篇文章

订阅专栏

案例1：使用neo4j构建小型金融行业知识图谱

案例1：使用neo4j构建小型金融行业知识图谱

引用于：知识图谱—仅用neo4j搭建简单的金融知识图谱-CSDN博客

数据和任务描述链接:百度网盘请输入提取码密码:h8of

一、任务描述

在用neo4j构建一个简单的金融领域的知识图谱，挖掘“高管—上市企业—行业/概念”之间的关系。

二、数据获取

爬取同花顺官网，得到的html文件，企业信息就存储在这写文件中，需要用BeautifulSoup去解析其内容，挖掘出相关的数据。

三、数据清洗，得到图谱源数据

导入到neo4j的csv文件主要有nodes.csv文件（这部分文件在neo4j中是databases的作用）和relationship.csv文件（这部分文件在neo4j中是relation的作用）。

四、导入

使用neo4j-admin导入neo4j，完成实体关系存储

导入命令：

./neo4j-admin import --mode=csv --database=stockkg.db --nodes=/Users/zero/Desktop/kg/stock.csv --nodes=/Users/zero/Desktop/kg/industry.csv --nodes=/Users/zero/Desktop/kg/concept.csv --nodes=/Users/zero/Desktop/kg/executive.csv --relationships=/Users/zero/Desktop/kg/stock_industry.csv --relationships=/Users/zero/Desktop/kg/executive_stock.csv --relationships=/Users/zero/Desktop/kg/stock_concept.csv

案例2：基于金融知识图谱的问答机器人

from flask import Flask, jsonify, request, abort  
#from flask_cors import *  
from py2neo import Graph,Node,Relationship  
from decimal import Decimal  
from pyhanlp import *   
import json  
import math  
  
app = Flask(__name__)  
#CORS(app, supports_credentials=True)  
@app.route("/qa", methods=['POST', 'GET'])  
def kg_qa():  
    if request.method == 'GET':          
        ques = request.args.get('question')  
        cb = request.args.get('callback')  
        print(ques)  
        qa_graph = Graph('http://localhost:7474',username='neo4j',password='nlp')  
        #qa_graph = Graph('http://10.124.142.22:7474',username='neo4j',password='nlp')  
        keyword = []  
        ansList = []  
        # CRF 词法分析器  
        CRFLexicalAnalyzer = JClass("com.hankcs.hanlp.model.crf.CRFLexicalAnalyzer")  
        analyzer = CRFLexicalAnalyzer()  
        han_word_pos = analyzer.analyze(ques).toString()  
        print(han_word_pos)  
  
        wordlist = han_word_pos.split(" ")  
        for word in wordlist:  
            pos = word.split("/")  
            if "n" in pos[1]:  
                print(pos[0],pos[1])  
                if pos[0] not in keyword:  
                    keyword.append(pos[0])  
        print(keyword)  
#枚举组成cypher查询语句  
        for key1 in keyword:  
            for key2 in keyword:  
                #query_str = "match (n:ques{theme:'%s'})-[r1]->(m:desc{name:'%s'})-[r2]->(a:ans) return a.content"%(key1,key2)  
                query_str = "match (q)-[r2]->(a) where  q.theme=~'.*%s.*' AND a.key=~'.*%s.*' return a.content"%(key1,key2)  
                  
                print(query_str)  
                answer = qa_graph.run(query_str).data()  
                print(answer)  
                if answer:  
                    for item in answer:  
                        print(item)  
                        ans_str = item['a.content']  
                        print(ans_str)  
                        #如果结果里面没有才加入  
                        if ans_str not in ansList:  
                            ansList.append(ans_str)  
        print(ansList)  
  
        #如果两个条件查不出来，那就只查theme  
        if not ansList:  
            for key in keyword:  
                #query_str = "match (n:ques{theme:'%s'})-[r]->(a:ans) return a.content"%(key)  
                query_str = "match (q)-[r2]->(a) where  q.theme=~'.*%s.*' return a.content"%(key)  
                answer = qa_graph.run(query_str).data()  
                if answer:  
                    for item in answer:  
                        ans_str = item['a.content']  
                        print(ans_str)  
                        #如果结果里面没有才加入  
                        if ans_str not in ansList:  
                            ansList.append(ans_str)  
        print(ansList)

 # re_ans = "您想问的是不是这些问题:\n"  
        re_ans = ""  
  
        for i in range(len(ansList)):  
            re_ans += "(%s) %s \n"%(i+1,ansList[i])  
        print(re_ans)  
  
        result = {  
            "question" : ques,  
            "answer" : re_ans  
        }  
        res_str = json.dumps(result)  
        cb_str = cb + "(" + res_str + ")"  
        print(cb_str)  
  
        return cb_str  
    return 'Error Format'  
  
if __name__ == '__main__':  
    from werkzeug.serving import run_simple  
    run_simple('127.0.0.1', 9001, app)

基于上述代码可以完成基于KBQA的智能问答机器人。本代码使用了flask作为后台，使用了hanlp作为POS及NER来解析用户问题，解析完成后，将识别出来的实体传入neo4j中进行查询。

案例3：基于金融知识图谱的企业风险挖掘

一、背景

传统的企业评价主要基于企业的财务信息，借贷记录信息等来判断企业经营状况，以及是否可能违约等信用信息。对于财务健全、在传统银行借贷领域留有记录的大中型企业，这种评价方式无疑较为客观合理。然而，对于更大量的中小微企业，既无法公开获得企业真实财务信息，也无这些企业的公开信用信息，在强变量缺失的情况下，如何利用弱变量客观公正评价企业经营状况，正是本课题需要解决的主要问题。

p企业风险预测背景-2017-CCF-BDCI-Enterprise样本集是从全国2000多万企业抽取部分企业（脱敏后），提供企业主体在多方面留下的行为足迹信息数据。

二、样本数据介绍

样本提供两种数据

（1）企业身份信息（已脱敏）及企业在一定时间范围内的行为数据。该数据对训练集和评测集都是相同的。

（2）目标数据。目标值为该企业在2017年8月时的经营状况：停业1，正常经营0

三、项目构建思路

AI工程的一般过程：

数据预处理——特征工程——模型训练——模型评估——提供服务/再次训练

四、数据清洗

1. 转化或者去掉数据中存在的中文字符

2. 针对性的填充空置，根据这个工作的类别的平均值，最大值和最小值进行填充，填充的时候考虑公司的注册的时间，
使用相近时间短的同类型的工司的数据进行填充，比如前后 3 年

3. 针对性的去掉重复的数据，数据本省的噪声，去掉完全相同的数据，比如投资数据出现两份

4. 如何处理异常值，针对有先验证知识的特征进行分组

五、特征选择

基础特征 : 添加的过程中进行特征选择和分组，进行多特征多模型训练
1. 直接使用原始数据的列作为特征，使用单个和分组统计的特征，
2. 分时间段记性统计特征
3. 统计特征，比如投资公司的个数，违约的个数等，在本省内的个数和本省外的个数，
4. 计算不同分组之间的统计值的特征
5. 单个数据的同大类别和小类别的公司的个数（已经排序 rank 特征）
6. 同（大、小）行业对根据年份归一化后的注册资本进行排序，得到不同排序次序特征
7. 对一些实数数据，进行取对数特征变换

偏离值特征 :
1. 计算每一个个体与分组之间的偏离距离，计算分组的均值，得到与每个个体的分组
2. 添加聚类特征，计算单个个体与当年（全部或者 3 年），所有同大类型和同小类型公司的均值的偏差距离

交叉特征 :
1. 跨表时间交叉特征 : 使用不同的表的时间间隔得到特征 , 例如，第一次投资或违约时间和注册时间之间的差值
2. 加减乘除特征、多项式交叉特征，暴力特征，应该是暴力出奇迹
计算的使用进行特征筛选交叉，分别对积极特征和消极特征进行组合，
主管考虑正相关和负相关，比如，分公司的个数、投资公司数量、专利数都是正相关
失信此时、被执行案件此时都是负相关
3. one-hot 特征，将 one-hot 特征乘以某个其他特征
4. stacking 特征，使用树模型得到 stacking 特征
5. 企业关系特征，与这个企业有关系的事务的个数，可以构造一个有向图计算出度和入度
6. 注意时间衰减特征

六、 模型训练与评估

算法：xgboost

训练模型 :
在不同的特征集合上进行单模型调优和多模型融合
复赛的使用分省份预测，提高结果

评价指标： AUC + F1

树模型有较强的可解释性，往往简单且高效；树模型对于异常值有较强的鲁棒性；树模型对特征处理的要求比较低，不需要对特征进行归一化与空值填充；多模型融合（ blending（加权融合），还可以尝试的策略包括：stacking、bagging 等）

七、 核心代码讲解 - 偏离值特征

dataset['MPNUM_CLASS'] = dataset['INUM'].apply(lambda x : x if x <= 4 else 5)  
dataset['FSTINUM_CLASS'] = dataset['FSTINUM'].apply(lambda x : x if x <= 6 else 7)  
dataset.fillna(value={'alt_count': 0, 'rig_count': 0}, inplace=True)  
for column in ['MPNUM', 'INUM', 'FINZB', 'FSTINUM', 'TZINUM', 'ENUM', 'ZCZB', 'allnum', 'RGYEAR', 'alt_count', 'rig_count']:  
    groupby_list = [['HY'], ['ETYPE'], ['HY', 'ETYPE'], ['HY', 'PROV'], ['ETYPE', 'PROV'], ['MPNUM_CLASS'], ['FSTINUM_CLASS']]  
    for groupby in groupby_list:  
        if 'MPNUM_CLASS' in groupby and column == 'MPNUM':  
            continue  
        if 'FSTINUM_CLASS' in groupby and column == 'FSTINUM':  
            continue  
        groupby_keylist = []  
        for key in groupby:  
            groupby_keylist.append(dataset[key])  
        tmp = dataset[column].groupby(groupby_keylist).agg([sum, min, max, np.mean]).reset_index()  
        tmp = pd.merge(dataset, tmp, on=groupby, how='left')  
        dataset['ent_' + column.lower() + '-mean_gb_' + '_'.join(groupby).lower()] = dataset[column] - tmp['mean']  
        dataset['ent_' + column.lower() + '-min_gb_' + '_'.join(groupby).lower()] = dataset[column] - tmp['min']  
        dataset['ent_' + column.lower() + '-max_gb_' + '_'.join(groupby).lower()] = dataset[column] - tmp['max']  
        dataset['ent_' + column.lower() + '/sum_gb_' + '_'.join(groupby).lower()] = dataset[column] / tmp['sum']  
dataset.drop(['MPNUM_CLASS', 'FSTINUM_CLASS'], axis=1, inplace=True)

这段代码的意思是：

首先，根据分组字段对数据集进行分组

然后计算每个个体与分组的均值、最小值、最大值和求和值之间的偏离距离

这类特征对于这个比赛十分有效，是我分数大幅上升的一个原因。

案例4：使用MRC技术完成事件抽取

案例分享：中国法研杯CAIL2019http://cail.cipsc.org.cn

案例代码：https://github.com/caldreaming/CAIL

数据集： sQUAD 2.0 ---公开数据集。中文的是DoReader

一、项目架构

二、机器阅读流程

三、项目方案

案例5：基于法律领域的知识图谱

一、项目介绍

目前知识图谱在各个行业中应用逐步打开,尤其在金融,医疗,法律,旅游方面.知识图谱助力法律智能,能够在一定程度上利用现有大数据以及机器学习/深度学习与自然语言处理技术,提供一些智能的解决方案.本项目将完成两个大方向的工作:

1.以罪名为核心,收集相关数据,建成基本的罪名知识图谱,法务资讯对话知识库,案由量刑知识库.

2. 分别基于步骤1的结果,完成以下四个方面的工作:

• 基于案由量刑知识库的罪名预测模型

• 基于法务咨询对话知识库的法务问题类型分类

• 基于法务咨询对话知识库的法务问题自动问答服务

• 基于罪行知识图谱的知识查询

二、罪名预测

'''''使用svm模型进行预测'''  
    def predict(self, sent):  
        model = joblib.load(self.model_path)  
        represent_sent = self.rep_sentencevector(sent, flag='noseg')  
        text_vector = np.array(represent_sent).reshape(1, -1)  
        res = model.predict(text_vector)[0]  
        label = self.id_dict.get(res)  
        return label  
  
'''''基于wordvector，通过lookup table的方式找到句子的wordvector的表示'''  
    def rep_sentencevector(self, sentence, flag='seg'):  
        if flag == 'seg':  
            word_list = [i for i in sentence.split(' ') if i]  
        else:  
            word_list = self.seg_sent(sentence)  
        embedding = np.zeros(self.embedding_size)  
        sent_len = 0  
        for index, wd in enumerate(word_list):  
            if wd in self.embdding_dict:  
                embedding += self.embdding_dict.get(wd)  
                sent_len += 1  
            else:  
                continue  
        return embedding/sent_len

三、法务咨询问题分类

问题分类代码

'''''基于wordvector，通过lookup table的方式找到句子的wordvector的表示'''  
def rep_sentencevector(self, sentence):  
    word_list = self.seg_sent(sentence)[:self.max_length]  
    embedding_matrix = np.zeros((self.max_length, self.embedding_size))  
    for index, wd in enumerate(word_list):  
        if wd in self.embdding_dict:  
            embedding_matrix[index] = self.embdding_dict.get(wd)  
        else:  
            continue  
    len_sent = len(word_list)  
    embedding_matrix = self.modify_sentencevector(embedding_matrix, len_sent)  
  
    return embedding_matrix  
'''''对于OOV词,通过左右词的词向量作平均,作为词向量表示'''  
def modify_sentencevector(self, embedding_matrix, len_sent):  
    context_window = 2  
    for indx, vec in enumerate(embedding_matrix):  
        left = indx - context_window  
        right = indx + context_window  
        if left < 0:  
            left = 0  
        if right > len(embedding_matrix) - 1:  
            right = -2  
        context = embedding_matrix[left:right + 1]  
        if vec.tolist() == [0] * 300 and indx < len_sent:  
            context_vector = context.mean(axis=0)  
            embedding_matrix[indx] = context_vector  
  
    return embedding_matrix

法务咨询自动问答代码

'''''基于ES的问题查询'''  
    def search_es(self, question):  
        answers = []  
        res = self.search_specific(question)  
        for hit in res:  
            answer_dict = {}  
            answer_dict['score'] = hit['_score']  
            answer_dict['sim_question'] = hit['_source']['question']  
            answer_dict['answers'] = hit['_source']['answers'].split('\n')  
            answers.append(answer_dict)  
        return answers  
 '''''计算问句与库中问句的相似度,对候选结果加以二次筛选'''  
    def similarity_cosine(self, vector1, vector2):  
        cos1 = np.sum(vector1*vector2)  
        cos21 = np.sqrt(sum(vector1**2))  
        cos22 = np.sqrt(sum(vector2**2))  
        similarity = cos1/float(cos21*cos22)  
        if similarity == 'nan':  
            return 0  
        else:  
            return  similarity