自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

翻译 3.手动构建一个简单的知识图谱(Cypher)

采用一个实际的案例来说明Neo4J的查询语言Cypher的使用方法,在实际的生产应用中,除了简单的查询操作会在Neo4J的web页面进行外,一般还是使用Python、Java等的driver来在程序中实现。这条语句的含义就是创建一个标签为Person的节点,该节点具有一个name属性,属性值是John。在关系中,同样的使用花括号{}来增加关系的属性,也是类似Python的字典,这里给FRIENDS关系。这里的关系是BORN_IN,表示出生地,同样有一个属性,表示出生年份。是有方向的,表示是从a到b的关系。

2024-04-27 15:22:11 3

原创 Pandas数据处理(取数/删除NaN)

subset:列表----columns或者index,只删除指定列/行。df.iloc[ 行序 ] [列序 ]列转换为一维数组,然后访问该数组索引处的值。df.iloc[ 行 ] [ '列名' ]#取出某一列,然后根据行序列进行对第n行取值。是标量的快速访问方法,可从 Pandas。#访问行,然后使用列名访问值。df.iloc[ 行序, 列序 ]thresh:阈值,类型为int,1或者columns则是删除列。删除至少有一个NaN的行/列;删除全部都是NaN的行/列。,并且使用起来最简单。

2024-03-29 16:56:09 372

转载 【11】大数据与AI时代用户画像最佳实践

用户画像是指在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。

2024-02-26 15:52:24 125

原创 【10】知识图谱实战案例(动手做)

然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,正是。针对性的填充空置,根据这个工作的类别的平均值,最大值和最小值进行填充,填充的时候考虑公司的注册的时间,针对性的去掉重复的数据,数据本省的噪声,去掉完全相同的数据,比如投资数据出现两份。统计特征,比如投资公司的个数,违约的个数等,在本省内的个数和本省外的个数,计算每一个个体与分组之间的偏离距离,计算分组的均值,得到与每个个体的分组。

2024-02-26 11:13:03 1202

原创 【9-1】实验——Neo4j实战操作之命令(继续补充)

停止知识图谱:~/ neo4j-community-3.5.6/bin/进入~/neo4j-community-3.5.6/删除旧的图谱,例如qatest.db。1、工具:neo4j-admin。进入知识图谱配置文件目录。

2024-02-20 16:10:58 648

原创 【9】知识存储

图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的。单节点的服务器可承载上亿级的节点和关系,单节点性能不够时也可进行分布式集群部署。Neo4j在每个节点中存储了每个边的指针,因而遍历时效率相当高,等一样还要依赖另外的数据库存储。有自己的后端存储,不必如同。二、neo4j的安装与部署。出现下图即代表安装成功,输入框用来执行下面的。

2024-02-19 17:58:08 203

原创 【8】知识加工

概念是广义的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等,其定义一般包括概念的名称,以及对该概念的自然语言描述。、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。确定本体的专业领域和范畴;通过向量之间的计算代替图的遍历和搜索来预测三元组的存在,由于向量的表示已经包含了实体原有的语义信息,计算含有⼀定的推理能⼒。

2024-02-19 16:32:53 805

原创 【7-1】实验——实体统一和歧义消除

【代码】【7-1】实验——实体统一和歧义消除。

2024-02-19 11:33:05 179

原创 【7】知识融合

虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。的形式去表示,并不保证某一实体或者资源的唯一性,所以在。

2024-02-19 11:07:23 573

原创 【6-1】使用hanlp进行实体抽取以及句法分析(问题待解决)

AttributeError: 'com.hankcs.hanlp.corpus.tag.Nature' object has no attribute 'name',使用使用。term.nature.name=="nr",保错。term.nature=="nr",最终结果为空。触发词:安装、配置、使用。

2024-02-18 16:44:11 350

原创 【6】知识抽取

是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。数据抽取)有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。任务:实体识别即识别出句子或文本中的实体,链接就是将该实体与知识库中的对应实体进行链接。)主要抽取的是文本中的原子信息元素(人名、机构名、地名、时间、日期、货币和百分比)。识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本章知识抽取部分,主要侧重点的非结构化的知识。

2024-02-18 15:35:58 910

原创 【3-3】实验——基于Bilstm+CRF的命名实体识别(待完成)

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的序列标注任务,是关系抽取、知识图谱、问答系统等其他诸多NLP任务的基础。是指从文本中识别出特定命名指向的词,比如人名、地名、组织机构名等。具体而言,input自然语言序列,output标签序列。命名实体识别的常用方法是BiLSTM-CRF和BERT-CRF。命名实体识别任务常常转化为序列标注问题,利用BIO、BIOES和BMES等常用的标注规则对经过分词的文本进行token标注。

2024-02-04 16:29:39 893

原创 【5-1】获取目标企业的法人等信息

在搜索栏输入企业的完整名称,如“北京知乎科技有限责任公司”,观察搜索结果的地址有什么规则。发现规律,地址栏后面是要搜索的公司名称。、打开这个公司的链接,同样观察地址有什么规律。发现规律,通过一串数字来对应该公司。同时在不登陆天眼查的情况下,可以看到了网址。、分析网址的这一串数字从哪里来的。复制这个数字,在上一个网页的源码中去找。定位到公司介绍的链接地址,注意要做公司名的完整匹配。、分析该网页源码,发现关键字法定代表人 “就能匹配到唯一的网址。获取新链接页面的源码,通过关键。可以定位到我们想要的公司网址。

2024-02-01 14:15:12 685

原创 【4-1】实验——金融企业数据主题域设计——企业风险知识图谱

企业风险知识模型的设计。

2024-01-31 13:30:58 170

原创 【4】知识表示与知识建模

狭义上,知识图谱指具有图结构的三元组知识库,内部包括实体,实体属性,以及实体之间的关系三类事实,知识图谱本身是一个有向图,实体作为知识图谱的节点,事实作为知识图谱的边,方向由头实体指向尾部实体,边是实体之间的关系。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。包括公民,投资和消费个体,着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间的关系,因此把自然语言转换成语义网络较为容易;比如,一家公司,我们会有他的法人,他的注册资金等等。

2024-01-31 13:26:02 1053

原创 【3-2】实验——安装TensorFlow

这是因为这些库都依赖于numpy,并且对numpy的某些功能进行了扩展或使用了numpy的一些内部实现。如果numpy的版本过高或过低,可能会与tensorflow或pytorch不兼容,导致报错。解决方法:在此实验中先放着,但是后期需要的话,可以通过明确tensorflow下载渠道,确定适合的numpy低版本,然后在其他渠道,仍然使用最新版本的numpy。(3)tensorflow各版本和Python的有些库会出现不兼容,所以安装的时候需要大家花点时间,比较麻烦。错误原因:是因为numpy的版本较低。

2024-01-30 12:42:37 481 1

原创 【5-2】股票吧信息爬取实战

因此,在本项目中,使用字典来存储每只股票的信息,然后再用字典把所有股票的信息记录起来,最后将字典中的数据输出到文件中。由于百度股票只有单个股票的信息,所以还需要当前股票市场中所有股票的列表,在这里我们选择东方财富网。式函数,用于浏览,搜索和修改解析树,它是一个工具箱,通过解析文档为用户提供需要抓取的数据。代码生成的,符合我们本项目的要求,所以在本项目中选择百度股票的网址。的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的。因此,在我们存储每只股票的信息时,可以参考上图中。编码,输出文档转换为。

2024-01-30 09:25:08 817 2

原创 【5】知识源数据的获取(含实验)—待解决

半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理。这里假设数据库中已经存在如下的如下的单实体以及三元组数据,目前的主要任务就是从文中抽取相关的数据,来补充现有的知识库。业界指关系模型数据,即以关系数据库表形式管理的。二、非结构化数据的获取。一、结构化数据的获取。

2024-01-29 17:48:44 353

原创 【3-1】实验——hanlp和jieba常用方法

2.(特殊情况)下载完成后打开jupyter notebook后,使用pyhanlp,产生了自动更新。1.打开conda使用如下语句。附:提供了一个安装教程。

2024-01-29 13:32:30 278

原创 【3】自然语言处理

(1)Jieba①“结巴”中文分词:广泛使用的Python中文分词组件精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合搜索引擎分词。支持词性标注和返回词语在原文的起止位置支持繁体分词支持自定义词典②Jieba的使用——分词jieba.cut:精确全局模式,返回为generatorjieba.cut_for_search:搜索引擎模式,返回为。

2024-01-26 15:56:47 979 1

原创 【2】Anaconda开发环境安装以及机器学习实战案例

说明一下:fit_transform与transform都要求操作2D数据,而此时的y_train与y_test都是1D的,因此需要调用reshape(-1,1),例如:[1,2,3]变成[[1],[2],[3]]:在初次建立模型时,通常将能考虑到的维度都用于构建模型,当使用初次模型进行训练后,根据特征权重可以对模型进行优化,重新构造模型。fit()第二个参数(也就是label)必须是(n.)格式的,而传入的是(n,1)格式的,所以需要将他转换。,当协作开发,或使用其他后台框架时,使用。

2024-01-25 17:04:14 881

原创 【1】知识图谱概述

数据模型的构建,一般都会找一个基础的参考模型,这个参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个基础的数据模型,再根据实际收集的数据情况,来完善数据模型。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。

2024-01-24 17:50:21 838

转载 对某APK反编译修改代码到重新打包编译

JD-GUI虽然可以将class反编译成java源代码,但是对于一些被混淆过的class,反编译的效果就不是那么理想了,被混淆过的class反编译后的类文件名称以及里面的方法名称都会以a,b,c....之类的样式命名。反编译classes.dex得到classes-dex2jar.jar文件之后,就可以使用【jd-gui】工具将class文件反编译成java源代码了。(1)进入CMD命令行,切换到上述的3个工具的所在目录,如:C:\Users\whw\Desktop\反编译工具包。

2023-12-01 17:29:12 322 1

原创 1.创建首个 Android应用

(2)、安装Eclipse或者Android Studio。(4)、为Android Studio安装ADT插件。(3)、下载并安装AndroidSDK;下载Android Studio页面。(1)、安装JDK;

2023-11-30 14:42:57 51

原创 1.neo4j Community版的安装与排错

2.jdk文件夹的创建:一开始java安装完之后,并没有jdk-17这个文件夹,我将文件夹下所有内容copy 并且新建了一个jdk-17 然后 将所有内容copy到了jdk-17文件夹里。①neo4j环境配置出错Invoke-Neo4j : Could not find java at D:\****\java_folder\jdk-17\bin\ja。(因为我之前下载过jdk-18,但是我下载的neo4j 5.13.0适配的是jdk-17,所以有两个)

2023-11-13 17:49:10 555

原创 批量修改文件夹/文件名的小技巧

批量修改文件夹名。本文以 修改某文件夹内所有文件的文件名 为例。

2023-01-10 17:05:44 2554

原创 利用Python中的openpyxl/Pandas库操作excel

xlrd库:从excel中读取数据,支持xls、xlsxxlwt库:对excel进行修改操作,不支持对xlsx格式的修改xlutils库:在xlw和xlrd中,对一个已存在的文件进行修改。openpyxl:主要针对xlsx格式的excel进行读取和编辑。

2023-01-03 14:06:20 9018 1

原创 Pandas中对DataFrame列名进行重命名

Pandas是一个用于数据分析和操作的Python库。在pandas中几乎所有的操作都围绕着DataFrame。Dataframe是一个二维表的抽象表示,可以包含各种数据。

2022-11-25 13:28:39 17190

原创 Python利用pandas库一次读取多个excel文件并合并

他们具有相同的列名,想要将他们纵向合并起来,用append函数。(若想横向合并,只要用concat函数替换这里的就行了,但是注意要用相同的行名/行索引。这里要用到os库的walk和path功能。现在有一个文件夹,里面有三个excel,将一个文件夹里的多个文件读取,并合并。否则就会有隐藏的缓存文件。

2022-11-24 18:01:04 7087 1

转载 Pandas数据合并与拼接的5种方法

Pandas数据合并与拼接的5种方法。必须存在于左右两个DataFrame中,如果没有指定且其他参数也没有指定,则以两个DataFrame列名交集作为连接键;suffixes:字符串值组成的元组,用于指定当左右DataFrame存在相同列名时在列名后面附加的后缀名称,默认为('_x', '_y');left_on:左侧DataFrame中用于连接键的列名,这个参数左右列名不同但代表的含义相同时非常的有用;没有指定连接键,默认用重叠列名,没有指定连接方式,默认inner内连接(取key的交集)

2022-11-24 17:14:49 25618 2

原创 Python抓取网页中的超链接以及其文本

0.准备工作:读入网页加以解析抓取,需要用到的软件包是 requests_html。我们此处并不需要这个软件包的全部功能,只读入其中的 HTMLSession 就可以。我们不想要集合,只想要其中的链接字符串。所以我们先把它转换成列表,然后从中提取第一项,即网址链接。#以把抓取的内容输出到Excel中了。Pandas内置的命令,就可以把数据框变成csv格式。),它就把找到的所有描述文本和链接路径都返回给我们。确认该区域就是我们要找的链接和文字描述后,选择。中查看的时候,有可能是乱码。结果数据对应的文本。

2022-11-22 11:31:57 3304 1

原创 【Python处理EXCEL】--pandas导入Excel文件

本文使用的是Python集成运行环境。

2022-11-16 15:48:54 12371

原创 Python中相似度对比-difflib模块

python中有比较相似度的模块 difflib,相关函数为difflib.SequenceMatcher().quick_ratio()# None参数是一个函数,用来去掉不需要比较的字符。#s1,s2参数为两个需要计算相似度的字符串。语法:SequenceMatcher(计算两个字符串的相似度。

2022-11-02 17:47:37 3942

android开发-安卓源码-应用程序app-修改/直接使用-实战练习

12个安卓app的源码,包括 Music音乐 Shopping购物 travle旅行 Weather天气 ComposeCard ComposeLogin Course Datastore Moden1 ModernDashboard Movnet等应用程序, 优质资源,下载即用

2024-02-26

python操作excel、word、pdf

用于python办公自动化的基础教程,适用于批量处理excel、word、pdf

2023-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除