知识图谱实战6+3天
文章平均质量分 76
铁盒薄荷糖
这个作者很懒,什么都没留下…
展开
-
【1】知识图谱概述
数据模型的构建,一般都会找一个基础的参考模型,这个参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个基础的数据模型,再根据实际收集的数据情况,来完善数据模型。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。原创 2024-01-24 17:50:21 · 844 阅读 · 0 评论 -
【2】Anaconda开发环境安装以及机器学习实战案例
说明一下:fit_transform与transform都要求操作2D数据,而此时的y_train与y_test都是1D的,因此需要调用reshape(-1,1),例如:[1,2,3]变成[[1],[2],[3]]:在初次建立模型时,通常将能考虑到的维度都用于构建模型,当使用初次模型进行训练后,根据特征权重可以对模型进行优化,重新构造模型。fit()第二个参数(也就是label)必须是(n.)格式的,而传入的是(n,1)格式的,所以需要将他转换。,当协作开发,或使用其他后台框架时,使用。原创 2024-01-25 17:04:14 · 897 阅读 · 0 评论 -
【3】自然语言处理
(1)Jieba①“结巴”中文分词:广泛使用的Python中文分词组件精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合搜索引擎分词。支持词性标注和返回词语在原文的起止位置支持繁体分词支持自定义词典②Jieba的使用——分词jieba.cut:精确全局模式,返回为generatorjieba.cut_for_search:搜索引擎模式,返回为。原创 2024-01-26 15:56:47 · 983 阅读 · 1 评论 -
【3-1】实验——hanlp和jieba常用方法
2.(特殊情况)下载完成后打开jupyter notebook后,使用pyhanlp,产生了自动更新。1.打开conda使用如下语句。附:提供了一个安装教程。原创 2024-01-29 13:32:30 · 283 阅读 · 0 评论 -
【3-2】实验——安装TensorFlow
这是因为这些库都依赖于numpy,并且对numpy的某些功能进行了扩展或使用了numpy的一些内部实现。如果numpy的版本过高或过低,可能会与tensorflow或pytorch不兼容,导致报错。解决方法:在此实验中先放着,但是后期需要的话,可以通过明确tensorflow下载渠道,确定适合的numpy低版本,然后在其他渠道,仍然使用最新版本的numpy。(3)tensorflow各版本和Python的有些库会出现不兼容,所以安装的时候需要大家花点时间,比较麻烦。错误原因:是因为numpy的版本较低。原创 2024-01-30 12:42:37 · 505 阅读 · 1 评论 -
【3-3】实验——基于Bilstm+CRF的命名实体识别(待完成)
命名实体识别(Named Entity Recognition,NER)是自然语言处理中的序列标注任务,是关系抽取、知识图谱、问答系统等其他诸多NLP任务的基础。是指从文本中识别出特定命名指向的词,比如人名、地名、组织机构名等。具体而言,input自然语言序列,output标签序列。命名实体识别的常用方法是BiLSTM-CRF和BERT-CRF。命名实体识别任务常常转化为序列标注问题,利用BIO、BIOES和BMES等常用的标注规则对经过分词的文本进行token标注。原创 2024-02-04 16:29:39 · 938 阅读 · 0 评论 -
【4】知识表示与知识建模
狭义上,知识图谱指具有图结构的三元组知识库,内部包括实体,实体属性,以及实体之间的关系三类事实,知识图谱本身是一个有向图,实体作为知识图谱的节点,事实作为知识图谱的边,方向由头实体指向尾部实体,边是实体之间的关系。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。包括公民,投资和消费个体,着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间的关系,因此把自然语言转换成语义网络较为容易;比如,一家公司,我们会有他的法人,他的注册资金等等。原创 2024-01-31 13:26:02 · 1069 阅读 · 0 评论 -
【4-1】实验——金融企业数据主题域设计——企业风险知识图谱
企业风险知识模型的设计。原创 2024-01-31 13:30:58 · 173 阅读 · 0 评论 -
【5】知识源数据的获取(含实验)—待解决
半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理。这里假设数据库中已经存在如下的如下的单实体以及三元组数据,目前的主要任务就是从文中抽取相关的数据,来补充现有的知识库。业界指关系模型数据,即以关系数据库表形式管理的。二、非结构化数据的获取。一、结构化数据的获取。原创 2024-01-29 17:48:44 · 355 阅读 · 0 评论 -
【5-1】获取目标企业的法人等信息
在搜索栏输入企业的完整名称,如“北京知乎科技有限责任公司”,观察搜索结果的地址有什么规则。发现规律,地址栏后面是要搜索的公司名称。、打开这个公司的链接,同样观察地址有什么规律。发现规律,通过一串数字来对应该公司。同时在不登陆天眼查的情况下,可以看到了网址。、分析网址的这一串数字从哪里来的。复制这个数字,在上一个网页的源码中去找。定位到公司介绍的链接地址,注意要做公司名的完整匹配。、分析该网页源码,发现关键字法定代表人 “就能匹配到唯一的网址。获取新链接页面的源码,通过关键。可以定位到我们想要的公司网址。原创 2024-02-01 14:15:12 · 685 阅读 · 0 评论 -
【5-2】股票吧信息爬取实战
因此,在本项目中,使用字典来存储每只股票的信息,然后再用字典把所有股票的信息记录起来,最后将字典中的数据输出到文件中。由于百度股票只有单个股票的信息,所以还需要当前股票市场中所有股票的列表,在这里我们选择东方财富网。式函数,用于浏览,搜索和修改解析树,它是一个工具箱,通过解析文档为用户提供需要抓取的数据。代码生成的,符合我们本项目的要求,所以在本项目中选择百度股票的网址。的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的。因此,在我们存储每只股票的信息时,可以参考上图中。编码,输出文档转换为。原创 2024-01-30 09:25:08 · 903 阅读 · 2 评论 -
【6】知识抽取
是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。数据抽取)有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。任务:实体识别即识别出句子或文本中的实体,链接就是将该实体与知识库中的对应实体进行链接。)主要抽取的是文本中的原子信息元素(人名、机构名、地名、时间、日期、货币和百分比)。识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本章知识抽取部分,主要侧重点的非结构化的知识。原创 2024-02-18 15:35:58 · 921 阅读 · 0 评论 -
【6-1】使用hanlp进行实体抽取以及句法分析(问题待解决)
AttributeError: 'com.hankcs.hanlp.corpus.tag.Nature' object has no attribute 'name',使用使用。term.nature.name=="nr",保错。term.nature=="nr",最终结果为空。触发词:安装、配置、使用。原创 2024-02-18 16:44:11 · 418 阅读 · 1 评论 -
【7】知识融合
虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。的形式去表示,并不保证某一实体或者资源的唯一性,所以在。原创 2024-02-19 11:07:23 · 597 阅读 · 0 评论 -
【7-1】实验——实体统一和歧义消除
【代码】【7-1】实验——实体统一和歧义消除。原创 2024-02-19 11:33:05 · 183 阅读 · 0 评论 -
【8】知识加工
概念是广义的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等,其定义一般包括概念的名称,以及对该概念的自然语言描述。、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。确定本体的专业领域和范畴;通过向量之间的计算代替图的遍历和搜索来预测三元组的存在,由于向量的表示已经包含了实体原有的语义信息,计算含有⼀定的推理能⼒。原创 2024-02-19 16:32:53 · 812 阅读 · 0 评论 -
【9】知识存储
图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的。单节点的服务器可承载上亿级的节点和关系,单节点性能不够时也可进行分布式集群部署。Neo4j在每个节点中存储了每个边的指针,因而遍历时效率相当高,等一样还要依赖另外的数据库存储。有自己的后端存储,不必如同。二、neo4j的安装与部署。出现下图即代表安装成功,输入框用来执行下面的。原创 2024-02-19 17:58:08 · 204 阅读 · 0 评论 -
【9-1】实验——Neo4j实战操作之命令(继续补充)
停止知识图谱:~/ neo4j-community-3.5.6/bin/进入~/neo4j-community-3.5.6/删除旧的图谱,例如qatest.db。1、工具:neo4j-admin。进入知识图谱配置文件目录。原创 2024-02-20 16:10:58 · 655 阅读 · 0 评论 -
【10】知识图谱实战案例(动手做)
然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,正是。针对性的填充空置,根据这个工作的类别的平均值,最大值和最小值进行填充,填充的时候考虑公司的注册的时间,针对性的去掉重复的数据,数据本省的噪声,去掉完全相同的数据,比如投资数据出现两份。统计特征,比如投资公司的个数,违约的个数等,在本省内的个数和本省外的个数,计算每一个个体与分组之间的偏离距离,计算分组的均值,得到与每个个体的分组。原创 2024-02-26 11:13:03 · 1443 阅读 · 0 评论 -
【11】大数据与AI时代用户画像最佳实践
用户画像是指在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。转载 2024-02-26 15:52:24 · 167 阅读 · 0 评论