基于NLP的产业链构建与应用

理论与背景:产业链建设驱动力、理论、行业现状和建 设目标

驱动力-价值发现和风险识别:在这里插入图片描述

产业链理论:

劳动分工
人类起源于群居者之间的分工
亚当斯密为代表的古典主流经济学家从微观层面分析劳动分工和专业化对提高企业劳动生产率的作用。
新古典理论和新古典学派经济学代表人物马歇尔将分工扩展到企业之间,强调企业之间分工协作的重 要性,从而开启了对产业链的研究。

产业链和价值链
Porter(1985)《竞争优势》《竞争战略》最早提出价值链理论,把企业各部分分为基本活动和支持 活动,强调企业的竞争优势。
Krugman(1995)分析过企业将内部各个价值环节在不同地理空间进行配置的能力问题,这开启了价 值链理论中价值链治理模式与产业空间转移之间关系的重要研究领域。

国家产业链安全

行业现状:

现有的产品主要聚焦二级市场的投顾、投研和风控,少数面向一级市场。

行业分类:面向B端的数据产品。

行业上下游:面向C端投顾。

热点概念:面向C端投顾。

要素描述:仅限于行业和公司。

建设目标:

应用自然语言处理和软件工程思想,基于国民经济行业分类、投入产出表 等,从产业、行业到企业,构建一个多层次多维度产业链知识图谱,为监 管、投融资和招商等应用领域提供服务。

产业:了解产业链完整视图, 产业链的发展,上中下 游重点细分行业,核心 监管机构等。

行业:了解上下游和替代行业发展情况,以及本行业规模、竞争格局、发展历史与趋势、政策法规等。

公司:通过可比公司重点财务数据,结合产业链细分行业 的价格、销量、融资等信息,了解企业的发展前景。

架构与流程:依据目标,设计产业链本体,建设路径, 系统架构和自动构建流程
建设路径:

搜集资料
互联网海量文本、研究报告、第三方报告等资料收集。

人工审核
审核产业链重点要素的数 据数量及质量,核心难点依靠互联网众包平台辅助审核。

建立框架
定义产业链本体、样例 公司和样例数据

自动构建
PDF文档解析,行业数据抽取、 行业及上下游识别、要素结构化。

产业链本体设计:在这里插入图片描述
系统架构:
在这里插入图片描述
自动构建流程:在这里插入图片描述
关键方法:包括基础设施和自动构建环节中的关键技 术,基础设施为模型任务提供平台和工具

基础设施-算法架构:
在这里插入图片描述
基础设施-机器学习平台:在这里插入图片描述
基于NLP构建产业链的核心是文本处理能力和模型能力。
面向领域的NLP工具(分词、NER、句法和语义)和语言模型是快速建模的支撑。
算法流程管理和自动化辅助是快速应用的基础。

基础设施-语言模型:
在这里插入图片描述
证券领域三种文本类型,新闻、公告和研报。
面向不同任务和应用场景,同时支持word2vec和bert。
基于语言模型可高效实现相似度、分类、实体和关系识别等下游应用。

基础设施-词法和句法分析:
在这里插入图片描述
面向证券领域的句法和语义工具:

支持证券领域典型的复杂句式

句法的输入是词法工具的输出

操作粒度全流程保持一致性

实体单独作为成分

通过化简降低处理难度

自动构建-篇章解析:
在这里插入图片描述
自动构建-行业要素分类:
在这里插入图片描述
在这里插入图片描述
自动构建-行业和上下游识别:
在这里插入图片描述
基于领域语言模型
实体和关系联合学习
识别行业名称
识别多个行业之间的上下游关系
联合学习能够解决pipline模型误差传播的问题。
在这里插入图片描述
自动构建-要素结构化:

从市场规模来看,近年来全球体外诊断市场增长稳定,2013年全球体外诊断市场规模达到了554 亿美元,2015年全球体外诊断市场规模约为634.27亿美元,预计2015年到2018年,将以7%的年度 复合增长率平稳增长,到2018年预计可以达到777.01亿美元。
在这里插入图片描述
自动构建-行业同义词识别:
在这里插入图片描述除了上下游以外,还有一些相同相近行业,也需要进行识别:

通过领域文本词条化对行业名称进行扩展
利用语言模型和相似度计算进行识别在这里插入图片描述
自动构建-典型公司识别:

产品信息:
行业网站
公告和研报
电商网站

公司信息
公司简介
公司网站
新闻

工商信息
软著
商标
主营业务

自动构建-实体融合:

利用实体库、图计算和自然语言处理等方法对实体进行融合。
在这里插入图片描述
自动构建-文本批处理:

在这里插入图片描述
基于流式处理,把产业链构建过程变成管道处理模式:

集成文本处理工具
集成NLP工具
集成数据源
集成消费者组件
容器化部署
实时自动化构建

产业链系统:在这里插入图片描述
示例和应用:包括基础设施和自动构建环节中的关键技术,基础设施为模型任务提供平台和工具
产业链:
在这里插入图片描述
示例-产业层面的上下游行业:
在这里插入图片描述
示例-行业上下游:
在这里插入图片描述
示例-行业要素:
在这里插入图片描述
应用-IPO审核:

大宗商品原材料采购价格比对:自动抽取发行人招股书披露的大宗商品采购价格,并与行业价格数据进行比对,对存在重大差异的情况进行提示。

上市公司分产品毛利率比对:通过将上市公司收入项目对齐至自有行业分类体系,实现分产品项目数据比对;毛利率为最具综合性的财务指标,分产品毛利率比对有助于识别经营/财务异常。

应用-股权投资:

以工业机器人为例进行企业筛选:按照企业规模、经营状况进行排序,优先显示路演、融资和高新技术企业;根据企业所在行业与行业的典型公司进行多维度对比,从而筛选投资标的。
在这里插入图片描述
在这里插入图片描述
以POCT和工业机器人为例筛选行业:通过对比当前国内行业规模和全球行业规模筛选;也可以通过对比当前行业规模和未来行业规模的空间进行筛选;还可以对比多个行业的行业规模差异进行筛选。
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值