自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 【2】kettle使用的小细节——输出数据分发和复制

出现的问题:程序运行到 增加序列 组件还有396条数据记录,但是在排序记录中只有 132条数据,即对3条线路进行了分发,各发送了132条数据。也可以在选取计算器组件的时候,右击选择【数据发送】—>【复制发送模式】选择复制以后会节点连接线会产生一个copy的标识。注:Round-Robin:轮询,分发记录。

2024-07-11 10:16:03 248

原创 【深度学习】第5章——卷积神经网络(CNN)

卷积操作就是用一个可移动的小窗口来提取图像中的特征,这个小窗口包含了一组特定的权重,通过与图像的不同位置进行卷积操作,网络能够学习并捕捉到不同特征的信息。(4)池化操作:降采样处理(down-pooling),是对不同位置的特征进行聚合统计。通常是取对应位置的最大值(最大池化)、平均值(平均池化)等;:(0的圈数)在外围边缘补充若干圈0,方便从初始位置以步长为单位可以刚好滑倒末尾位置,通俗地讲就是为了总长能被步长整除。(5)多层处理:一般而言,在图像处理中,一层卷积及降采样往往只学到了局部的特征。

2024-07-09 13:23:24 365

原创 【深度学习】第3章实验——回归模型

根据相关数据集进行回归分析。

2024-07-05 13:35:40 232

原创 【深度学习】第3章——回归模型与求解分析

分析自变量与因变量之间定量的因果关系,根据已有的数据拟合出变量之间的关系。

2024-07-05 13:28:02 379

原创 【scrapy】3.网易云爬取歌单(元素列表——表达式后添加)

6、对标签列表进行循环遍历,得到单首歌曲的标签信息。# 从单个的音乐标签中筛选出ID信息。直接运行即可爬取网页云某歌单的歌曲。通过在表达式后面添加 [0]

2024-07-02 13:40:16 233

原创 【scrapy】3.XPath解析

示例://a[@class='active' and @href='/home'] 可以匹配同时满足 class 属性值为 "active" 和 href 属性值为 "/home" 的 元素。示例://a[@class='active' or @class='highlight'] 可以匹配class属性为"active"或"class"属性为"highlight"的a元素。//父元素名[@属性名1='属性值1']/子元素名[@属性名2='属性值2']:通过指定父元素和子元素的属性条件来定位元素。

2024-06-28 15:36:23 606

转载 【scrapy】2.第一个scrapy爬虫项目

参考:python爬虫基础小案例, scrapy框架,思路和经验你全都有。_scrapy爬虫案例python-CSDN博客一、创建爬虫项目1.查看虚拟环境2.切换已安装scrapy的虚拟环境在python 中的终端中,创建scrapy框架。

2024-06-26 10:08:12 560

原创 【scrapy】1.scrapy爬虫入门

接收Scrapy Engine(引擎)发送的所有Requests请求,从网上下载数据,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。例如://div[@classs], //a[@x]:选择具有 class属性的 div节点、选择具有 x属性的 a节点。,它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。(2)a // b:表示a下所有b,直接或者间接的。,发起爬虫请求,并解析。

2024-06-25 14:35:47 1083

原创 【1】kettle的使用(全网最新版)

Kettle 是一款开源的 ETL 工具,纯 java 编写1、Kettle工程存储方式(1)以 XML 形式存储(2)以资源库方式存储 (数据库资源库 和 文件资源库)2、Kettle的两种设计转换 (transformation ):完成对数据的 基础转换。作业 (job) :控制完成整个工作流。区别:①作业是步骤过程,转换针对数据流。这是最大的区别。②作业的每一个步骤,需要等前面的步骤跑完了才能执行;

2024-06-17 16:02:42 855

原创 【深度学习】第2章

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如果关系是非线性的,即便两个变量具有-一对应的关系,Pearson相关性也可能会接近0。皮尔森相关系数高,相关性高——>去掉特征之间相关性高的&目标值相关性较小的。其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。6.TF-iDF词条权重计算?方差小,相似度高——>去掉相似度较高的。三、特征处理(特征缩放、选择及降维)2.特征值的归一化(规范化)(2)主成分分析(PCA)(3)基于森林的特征选择。

2024-05-29 14:18:49 630

原创 【深度学习】第1章

深度学习是一种实现机器学习的技术,是机器学习重要的分支。机器学习是对研究问题进行模型假设,利用计算机从训练数据中学习得到模型参数,并最终对数据进行预测和分析,其基础主要是归纳和统计。分类问题是有监督学习的一个核心问题。准确率是基于较佳的截断值计算的,AUC是基于所有可能的截断值计算的,更加稳健(尤其是面对突变样本)。曲线的位置越高,说明分类器的性能越好。回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,输出为一个实数数值。在垃圾短信分类器中,是指预测出的垃圾短信中真正垃圾短信的比例。

2024-05-26 14:16:14 602

原创 MySQL基本操作

1,将mysql.exe命令所在的目录,添加入系统环境变量的path中。E1049 ①p之后直接enter,然后输入密码 ②之后没有空格。Pandas:处理 + matplotlib 可视化。2,win + r --->运行窗口cmd。Excel:处理 + 可视化。

2024-05-14 17:09:50 253

转载 4.Python创建知识图,分析并训练嵌入模型(不连接数据库)

最短路径分析的重点是寻找图中两个节点之间的最短路径。衡量一个节点位于其他节点之间最短路径上的频率,或者说衡量一个节点对其他节点之间信息流的影响。具有高中间性的节点可以作为图的不同部分之间的桥梁。具有较高接近中心性的节点被认为更具中心性,因为它们可以更有效地与其他节点进行通信。源节点“gene2”和目标节点“cancer”之间的最短路径用红色突出显示,整个图的节点和边缘也被显示出来。(1)对于知识图谱KG,可以做的第一件事是查看它有多少个节点和边,并分析它们之间的关系。节点中心性度量图中节点的。

2024-05-14 15:42:31 33

转载 2.Python进行对Neo4j 的操作(连接数据库)

注意,定义了node1、node2等,一定要create才能更新进数据库。# 定义nodenode_1 = Node('英雄',name = '张无忌')node_2 = Node('英雄',name = '杨逍',武力值='100')node_3 = Node('派别',name = '明教')# 存入图数据库结果如下:t=N7T8。

2024-05-14 14:21:18 371

翻译 3.手动构建一个简单的知识图谱(Cypher)

采用一个实际的案例来说明Neo4J的查询语言Cypher的使用方法,在实际的生产应用中,除了简单的查询操作会在Neo4J的web页面进行外,一般还是使用Python、Java等的driver来在程序中实现。这条语句的含义就是创建一个标签为Person的节点,该节点具有一个name属性,属性值是John。在关系中,同样的使用花括号{}来增加关系的属性,也是类似Python的字典,这里给FRIENDS关系。这里的关系是BORN_IN,表示出生地,同样有一个属性,表示出生年份。是有方向的,表示是从a到b的关系。

2024-04-27 15:22:11 128

原创 Pandas数据处理(取数/删除NaN)

subset:列表----columns或者index,只删除指定列/行。df.iloc[ 行序 ] [列序 ]列转换为一维数组,然后访问该数组索引处的值。df.iloc[ 行 ] [ '列名' ]#取出某一列,然后根据行序列进行对第n行取值。是标量的快速访问方法,可从 Pandas。#访问行,然后使用列名访问值。df.iloc[ 行序, 列序 ]thresh:阈值,类型为int,1或者columns则是删除列。删除至少有一个NaN的行/列;删除全部都是NaN的行/列。,并且使用起来最简单。

2024-03-29 16:56:09 431

转载 【11】大数据与AI时代用户画像最佳实践

用户画像是指在大数据时代,我们通过对海量数字信息进行清洗、聚类、分析,从而将数据抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。

2024-02-26 15:52:24 365

原创 【10】知识图谱实战案例(动手做)

然而,对于更大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的公开信用信息,在强变量缺失的情况下,如何利用弱变量客观公正评价企业经营状况,正是。针对性的填充空置,根据这个工作的类别的平均值,最大值和最小值进行填充,填充的时候考虑公司的注册的时间,针对性的去掉重复的数据,数据本省的噪声,去掉完全相同的数据,比如投资数据出现两份。统计特征,比如投资公司的个数,违约的个数等,在本省内的个数和本省外的个数,计算每一个个体与分组之间的偏离距离,计算分组的均值,得到与每个个体的分组。

2024-02-26 11:13:03 2069

原创 【9-1】实验——Neo4j实战操作之命令(继续补充)

停止知识图谱:~/ neo4j-community-3.5.6/bin/进入~/neo4j-community-3.5.6/删除旧的图谱,例如qatest.db。1、工具:neo4j-admin。进入知识图谱配置文件目录。

2024-02-20 16:10:58 709

原创 【9】知识存储

图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的。单节点的服务器可承载上亿级的节点和关系,单节点性能不够时也可进行分布式集群部署。Neo4j在每个节点中存储了每个边的指针,因而遍历时效率相当高,等一样还要依赖另外的数据库存储。有自己的后端存储,不必如同。二、neo4j的安装与部署。出现下图即代表安装成功,输入框用来执行下面的。

2024-02-19 17:58:08 214

原创 【8】知识加工

概念是广义的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略、推理过程等,其定义一般包括概念的名称,以及对该概念的自然语言描述。、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,提供该领域特定的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理,达到人机交流的效果。确定本体的专业领域和范畴;通过向量之间的计算代替图的遍历和搜索来预测三元组的存在,由于向量的表示已经包含了实体原有的语义信息,计算含有⼀定的推理能⼒。

2024-02-19 16:32:53 880

原创 【7-1】实验——实体统一和歧义消除

【代码】【7-1】实验——实体统一和歧义消除。

2024-02-19 11:33:05 201

原创 【7】知识融合

虽然有监督的消歧方法能够取得较好的消歧性能,但需要大量的人工标注语料,费时费力。,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。计算语义词典中各个词义的定义与上下文之间的覆盖度,选择覆盖度最大的作为待消解词在其上下文下的正确词义。是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。消歧的本质在于一个词有很多可能的意思,也就是在不同的上下文中所表达的含义不太一样。的形式去表示,并不保证某一实体或者资源的唯一性,所以在。

2024-02-19 11:07:23 646

原创 【6-1】使用hanlp进行实体抽取以及句法分析(问题待解决)

AttributeError: 'com.hankcs.hanlp.corpus.tag.Nature' object has no attribute 'name',使用使用。term.nature.name=="nr",保错。term.nature=="nr",最终结果为空。触发词:安装、配置、使用。

2024-02-18 16:44:11 596 2

原创 【6】知识抽取

是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。数据抽取)有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。任务:实体识别即识别出句子或文本中的实体,链接就是将该实体与知识库中的对应实体进行链接。)主要抽取的是文本中的原子信息元素(人名、机构名、地名、时间、日期、货币和百分比)。识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本章知识抽取部分,主要侧重点的非结构化的知识。

2024-02-18 15:35:58 939

原创 【3-3】实验——基于Bilstm+CRF的命名实体识别(待完成)

命名实体识别(Named Entity Recognition,NER)是自然语言处理中的序列标注任务,是关系抽取、知识图谱、问答系统等其他诸多NLP任务的基础。是指从文本中识别出特定命名指向的词,比如人名、地名、组织机构名等。具体而言,input自然语言序列,output标签序列。命名实体识别的常用方法是BiLSTM-CRF和BERT-CRF。命名实体识别任务常常转化为序列标注问题,利用BIO、BIOES和BMES等常用的标注规则对经过分词的文本进行token标注。

2024-02-04 16:29:39 1021

原创 【5-1】获取目标企业的法人等信息

在搜索栏输入企业的完整名称,如“北京知乎科技有限责任公司”,观察搜索结果的地址有什么规则。发现规律,地址栏后面是要搜索的公司名称。、打开这个公司的链接,同样观察地址有什么规律。发现规律,通过一串数字来对应该公司。同时在不登陆天眼查的情况下,可以看到了网址。、分析网址的这一串数字从哪里来的。复制这个数字,在上一个网页的源码中去找。定位到公司介绍的链接地址,注意要做公司名的完整匹配。、分析该网页源码,发现关键字法定代表人 “就能匹配到唯一的网址。获取新链接页面的源码,通过关键。可以定位到我们想要的公司网址。

2024-02-01 14:15:12 700

原创 【4-1】实验——金融企业数据主题域设计——企业风险知识图谱

企业风险知识模型的设计。

2024-01-31 13:30:58 186

原创 【4】知识表示与知识建模

狭义上,知识图谱指具有图结构的三元组知识库,内部包括实体,实体属性,以及实体之间的关系三类事实,知识图谱本身是一个有向图,实体作为知识图谱的节点,事实作为知识图谱的边,方向由头实体指向尾部实体,边是实体之间的关系。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。包括公民,投资和消费个体,着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间的关系,因此把自然语言转换成语义网络较为容易;比如,一家公司,我们会有他的法人,他的注册资金等等。

2024-01-31 13:26:02 1150

原创 【3-2】实验——安装TensorFlow(镜像)

这是因为这些库都依赖于numpy,并且对numpy的某些功能进行了扩展或使用了numpy的一些内部实现。如果numpy的版本过高或过低,可能会与tensorflow或pytorch不兼容,导致报错。解决方法:在此实验中先放着,但是后期需要的话,可以通过明确tensorflow下载渠道,确定适合的numpy低版本,然后在其他渠道,仍然使用最新版本的numpy。(3)tensorflow各版本和Python的有些库会出现不兼容,所以安装的时候需要大家花点时间,比较麻烦。错误原因:是因为numpy的版本较低。

2024-01-30 12:42:37 589 1

原创 【5-2】股票吧信息爬取实战

因此,在本项目中,使用字典来存储每只股票的信息,然后再用字典把所有股票的信息记录起来,最后将字典中的数据输出到文件中。由于百度股票只有单个股票的信息,所以还需要当前股票市场中所有股票的列表,在这里我们选择东方财富网。式函数,用于浏览,搜索和修改解析树,它是一个工具箱,通过解析文档为用户提供需要抓取的数据。代码生成的,符合我们本项目的要求,所以在本项目中选择百度股票的网址。的解析库,我们可以用它来方便的从网页中提取数据,它拥有强大的。因此,在我们存储每只股票的信息时,可以参考上图中。编码,输出文档转换为。

2024-01-30 09:25:08 1054 2

原创 【5】知识源数据的获取(含实验)—待解决

半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理。这里假设数据库中已经存在如下的如下的单实体以及三元组数据,目前的主要任务就是从文中抽取相关的数据,来补充现有的知识库。业界指关系模型数据,即以关系数据库表形式管理的。二、非结构化数据的获取。一、结构化数据的获取。

2024-01-29 17:48:44 368

原创 【3-1】实验——hanlp和jieba常用方法

2.(特殊情况)下载完成后打开jupyter notebook后,使用pyhanlp,产生了自动更新。1.打开conda使用如下语句。附:提供了一个安装教程。

2024-01-29 13:32:30 343

原创 【3】自然语言处理

(1)Jieba①“结巴”中文分词:广泛使用的Python中文分词组件精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合搜索引擎分词。支持词性标注和返回词语在原文的起止位置支持繁体分词支持自定义词典②Jieba的使用——分词jieba.cut:精确全局模式,返回为generatorjieba.cut_for_search:搜索引擎模式,返回为。

2024-01-26 15:56:47 1000 1

原创 【2】Anaconda开发环境安装以及机器学习实战案例

说明一下:fit_transform与transform都要求操作2D数据,而此时的y_train与y_test都是1D的,因此需要调用reshape(-1,1),例如:[1,2,3]变成[[1],[2],[3]]:在初次建立模型时,通常将能考虑到的维度都用于构建模型,当使用初次模型进行训练后,根据特征权重可以对模型进行优化,重新构造模型。fit()第二个参数(也就是label)必须是(n.)格式的,而传入的是(n,1)格式的,所以需要将他转换。,当协作开发,或使用其他后台框架时,使用。

2024-01-25 17:04:14 978

原创 【1】知识图谱概述

数据模型的构建,一般都会找一个基础的参考模型,这个参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个基础的数据模型,再根据实际收集的数据情况,来完善数据模型。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。

2024-01-24 17:50:21 857

转载 对某APK反编译修改代码到重新打包编译

JD-GUI虽然可以将class反编译成java源代码,但是对于一些被混淆过的class,反编译的效果就不是那么理想了,被混淆过的class反编译后的类文件名称以及里面的方法名称都会以a,b,c....之类的样式命名。反编译classes.dex得到classes-dex2jar.jar文件之后,就可以使用【jd-gui】工具将class文件反编译成java源代码了。(1)进入CMD命令行,切换到上述的3个工具的所在目录,如:C:\Users\whw\Desktop\反编译工具包。

2023-12-01 17:29:12 676 1

原创 1.创建首个 Android应用

(2)、安装Eclipse或者Android Studio。(4)、为Android Studio安装ADT插件。(3)、下载并安装AndroidSDK;下载Android Studio页面。(1)、安装JDK;

2023-11-30 14:42:57 60

原创 1.neo4j Community版的安装与排错

2.jdk文件夹的创建:一开始java安装完之后,并没有jdk-17这个文件夹,我将文件夹下所有内容copy 并且新建了一个jdk-17 然后 将所有内容copy到了jdk-17文件夹里。①neo4j环境配置出错Invoke-Neo4j : Could not find java at D:\****\java_folder\jdk-17\bin\ja。(因为我之前下载过jdk-18,但是我下载的neo4j 5.13.0适配的是jdk-17,所以有两个)

2023-11-13 17:49:10 775

原创 批量修改文件夹/文件名的小技巧

批量修改文件夹名。本文以 修改某文件夹内所有文件的文件名 为例。

2023-01-10 17:05:44 2675

深度学习第3章实验-回归模型数据集-汽车的燃油效率以其相关因素

数据集 mpg: Miles per gallon, 汽车的燃油效率(每加仑行驶的英里数)。 hp: Horsepower, 汽车的马力。 vs: Engine shape, 发动机的形状(0 = V-shaped, 1 = Straight)。 am: Transmission, 变速器类型(0 = Automatic, 1 = Manual)。

2024-07-05

深度学习实验2数据-红楼梦TXT文本数据以及停用词

红楼梦TXT文本数据,用以自然语言处理实验

2024-06-24

深度学习基础理论知识pdf版本

深度学习基础理论知识pdf版本

2024-05-24

android开发-安卓源码-应用程序app-修改/直接使用-实战练习

12个安卓app的源码,包括 Music音乐 Shopping购物 travle旅行 Weather天气 ComposeCard ComposeLogin Course Datastore Moden1 ModernDashboard Movnet等应用程序, 优质资源,下载即用

2024-02-26

python操作excel、word、pdf

用于python办公自动化的基础教程,适用于批量处理excel、word、pdf

2023-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除