自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(175)
  • 资源 (9)
  • 收藏
  • 关注

原创 【知识图谱】知识融合

文章目录一、知识融合1、基本概念2、数据层的知识融合(1)不同KG的知识融合(2)不同知识库的知识融合(3)不同来源数据的知识融合(4)知识在线融合3、Schema层的知识融合4、技术及其挑战5、相关比赛——OAEI二、知识融合的基本技术流程1、基本技术流程2、数据预处理3、记录链接(1)属性相似度① 编辑距离② 基于集合相似度③ 基于向量的相似度(2)实体相似度① 基于聚合的方法② 基于聚类的方...

2019-09-02 17:21:10 15002

原创 【知识图谱】知识存储

文章目录一、图数据库1、概述2、开源数据库介绍(1)[RDF4J](https://rdf4j.eclipse.org/)(2)[gStore](http://www.gstore-pku.com/pcsite/index.html)3、商业数据库介绍(1)[Virtuoso](https://virtuoso.openlinksw.com/)(2)[Allgrograph](https://fr...

2019-09-01 15:50:18 2505

原创 【知识图谱】知识抽取与挖掘(Ⅱ)

一、面向文本的知识抽取1、DeepDive关系抽取实战(1)预备知识KBC系统2、开放域关系抽取(1)信息抽取(IE)概述IE的发展趋势主要系统传统IE和OpenIE互相补充:可以按当前知识库的规范数据,链接更多网络数据。OpenIE所得到的三元组可以用扩充知识库。(2)信息抽取(IE)系统发展① 第一代OpenIE系统TextRunner抽取特征:NER、P...

2019-08-31 15:30:21 2635 1

原创 【知识图谱】知识抽取与挖掘(I)

文章目录一、知识抽取任务定义和相关比赛1、知识抽取任务定义2、知识抽取的技术与难点3、知识抽取的子任务(1)知识抽取 的 子任务4、相关竞赛与数据集二、面向非结构化数据的知识抽取1、实体抽取2、实体识别与链接3、关系抽取(1)基于模板的方法a、基于触发词的Patternb、基于依存句法分析的Patternc、小结(2)基于监督学习方法a、基于机器学习的方法b、基于深度学习的方法c、小结(3)基于半...

2019-08-30 10:46:58 3691

原创 人工智能之知识图谱概述(一)

文章目录碎碎念碎碎念工作中心已经转移到现在的知识图谱,最近找到了一个很新的综述报告,资源如下,先对知识图谱进行整体把握,再逐步对各个关键技术进行学习。传送门:网站地址:2019年第二期《人工智能之知识图谱》文件网盘地址:链接,提取码:putq...

2019-08-29 11:20:09 13553 6

原创 【知识图谱】知识表示与知识建模

文章目录一、早期知识表示简介1、知识分类2、早期知识表示方法二、基于语义网的知识表示框架1、语义网(Semantic Web)2、RDF(1)RDF(2)RDF空白节点(Black Nodes)(3)RDF是数据类型,不是序列化格式(4)注意(5)变种:带标注RDF一、早期知识表示简介1、知识分类作用范围:常识性知识、领域性知识作用及表示:事实性知识、过程性知识、控制知识确定性:确定性...

2019-08-20 22:23:37 5296

原创 【知识图谱】知识图谱概论

文章目录一、知识图谱与语义技术概述应用二、典型知识图谱三、知识图谱技术概览1、技术体系2、知识表示(1)RDF:Triple-based Assertion model(2)RDF Graph:Directed Labeled Graph(3)RDFS:Simple Vocabulary and Schema(4)RDF的序列化格式(5)OWL:Web Ontology Language3、知识存...

2019-08-19 16:26:56 1333

原创 知识图谱(八)——知识存储和检索

背景知识图谱是一种有向图结构,描述了现实世界存在的实体、事件或者概念以及它们之间的关系,为自动问答、信息检索等应用提供支撑。其中,图中的节点表示实体、事件或概念,图中的边表示相邻节点间的关系,如下图所示。每一个节点表示一个实体,每个实体都是某一抽象概念的实例。这些抽象概念被称为实体类型,如:人物、城市等。实体除了具有类型信息,还具有丰富的属性信息(蓝色部分),这些属性信息用于刻画实体的内...

2019-08-11 23:15:41 7177 1

原创 知识图谱(七)——事件抽取

一、任务概述1、事件的定义没有统一的定义,在知识图谱领域,自动内容抽取(ACE)评测会议中对事件的定义如下:事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或多个角色参与的一个或多个动作组成的事情或状态的改变。2、事件抽取的定义研究:如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来。重点在从非结构化文本中进行事件抽取。过程:首先从非结构...

2019-08-10 10:31:32 8996 2

原创 知识图谱(六)——关系抽取

如何从结构化或非结构化文本中识别出实体之间的关系是知识图谱构建的核心任务之一。一、任务概述1、任务定义关系抽取:自动识别实体之间具有的某种语义关系。根据参与实体的数量可分为二元关系抽取和多元关系抽取。二元关系抽取是其他关系抽取研究的基础,所以本文关注二元关系抽取(两个实体之间的语义关系),得到 (arg1,relation,arg2)三元组。eg:(中国,首都,北京)2、任务分类...

2019-07-30 10:27:45 11364 3

原创 知识图谱(五)——实体消歧

一、任务概述多样性——同一实体在文本中会有不同的指称。eg:飞人、帮主、老大和MJ都指美国篮球运动员迈克尔·乔丹歧义性——相同的实体指称在不同的上下文中可以指不同的实体。eg:迈克尔·乔丹指美国篮球运动员、爱尔兰政治家等1、任务定义实体消歧,定义为六元组。此处实体指的是命名实体。M=N,E,D,O,K,δM=N,E,D,O,K,\deltaM=N,E,D,O,K,δN=n1,n2,....

2019-07-28 17:04:38 20592 4

原创 知识图谱(四)——实体识别和扩展

实体是知识图谱的基本单元,也是文本中承载信息的重要语言单位。按照国际公开评测(automatic content extraction, ACE)的定义,在文本中对实体的引用(entity mention,或称“指称项”)可以有三种形式:命名性指称、名词性指称和代词性指称。例如:[中国]乒乓球男队主教练][刘国梁]出席了会议,[他]指出了当前经济工作的重点。实体概念“刘国梁”的指称项有三...

2019-07-26 09:41:27 4508

原创 知识图谱(三)——知识体系构建和知识融合

知识图谱不仅包含具体的实例知识数据,还包括对知识数据的描述和定义。该部分对数据进行描述和定义的“元”数据被称为知识体系(Schema)或本体(Ontology)。知识融合主要方法:框架匹配和实例对齐。一、知识体系构建1、概述知识体系包含三方面的核心内容:概念的分类概念属性的描述概念之间相互关系知识体系的基本形态包含五个层次(难度升序):词汇(Terms)、概念(Concepts...

2019-07-23 10:56:16 8007

原创 知识图谱(二)——知识表示

知识应用难点在于知识推理,知识推理的难点在于知识表示。一、经典知识表示理论1、逻辑根据复杂性从弱到强:命题逻辑(propositional logic)、一阶谓词逻辑、高阶逻辑。(1)命题逻辑定义了具有真假值的原子命题,并可通过与(⋀\bigwedge⋀)、或(⋁\bigvee⋁)、非只要推论是真,命题就一定为真;推论为假的时候,看假设是否与推论的真值一致,一致的话,命题为真,不一致的...

2019-07-17 17:02:06 2347

原创 【Python 自然语言处理 第二版】读书笔记2:获得文本语料和词汇资源

文章目录一、获取文本语料库1、古腾堡语料库大量的语言数据或者语料库。一、获取文本语料库1、古腾堡语料库NLTK 包含 古腾堡项目(Project Gutenberg) 电子文本档案的经过挑选的一小部分文本,该项目大约有25,000本免费电子图书。import nltk# 输出语料库中的文件标识符print(nltk.corpus.gutenberg.fileids())...

2019-05-23 15:17:14 1731

原创 【Python 自然语言处理 第二版】读书笔记1:语言处理与Python

文章目录前言语言处理与Python一、语言计算:文本和单词1、NLTK入门(1)安装(nltk、nltk.book)(2)搜索文本(3)词汇计数2、列表与字符串(1)列表操作(2)索引列表(3)变量(4)字符串二、计算语言:简单的统计1、频率分布2、细粒度的选择词(1)选出长度大于15的单词(2)频繁出现的长词(3)提取词汇中的次对(4)提取文本中的频繁出现的双连词3、计数其他东西(1)文本中词长...

2019-05-21 17:16:23 741

原创 【爬虫笔记】Scrapy爬虫技术文章网站

Scrapy相关基本介绍参考这里一般的爬虫步骤:新建项目 (scrapy startproject xxx):新建一个新的爬虫项目明确目标(编写 items.py):定义提取的结构化数据制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页,提取出结构化数据存储内容(pipelines.py):设计管道存储爬取内容目标任务:爬取伯乐在线所有技术文档,需要爬取的内容...

2019-05-12 22:48:45 247

原创 Ubuntu18.04 安装MySQL、Navicat

一、MySQL1、安装MySQL安装命令sudo apt-get install mysql-serversudo apt-get install mysql-clientsudo apt-get install libmysqlclient-dev检验sudo netstat -tap | grep mysql通过上述命令检查之后,如果看到有mysql 的sock...

2019-05-11 19:08:48 752

原创 【爬虫笔记】爬虫基础

爬虫基础正则表达式深度优先和广度优先遍历算法url去重的常见策略爬取真实数据三个网站:技术社区、问答网站、招聘网站技术:xpath + css 获取 data模拟登陆scrapy反爬虫技术图片验证码ip访问频率限制user-agent随机切换scrapy进阶scrapy的原理基于scrapy的中间件开发scrapy redis分布式爬虫理解scra...

2019-05-05 22:34:36 202

转载 【转载】word2vec 中的数学原理详解

文章目录一、前言二、预备知识三、背景知识四、基于 Hierarchical Softmax 的模型五、基于 Negative Sampling 的模型六、若干源码细节原文传送门:word2vec 中的数学原理详解word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 To...

2019-04-17 11:12:35 211

原创 集成学习(ensemble learning)(四)

该篇为集成学习的第四篇,主要关注GDBT,传送下之前的文章:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)集成学习(ensemble learning)(三)

2019-04-16 14:36:28 575

原创 【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化

文章目录一、超参数1、网格搜索2、随机搜索3、贝叶斯优化二、Stacking1、核心图解(1)构建新的训练集(2)构建新的测试集(3)最终的训练与预测2、示例(1)构建新的训练集(2)构建新的测试集(3)多模型的处理(4)最终的训练与预测三、实现一、超参数优化可以分为参数优化和超参数优化。其中,可学习的参数通过优化算法可以进行优化;还有一类参数是用来定义模型结构或优化策略的,这类参数称为超参数...

2019-04-15 21:43:36 394

原创 集成学习(ensemble learning)(三)

集成学习系列第三篇(Boosting相关方法),传送前两篇:集成学习(ensemble learning)(一)集成学习(ensemble learning)(二)文章目录一、一、

2019-04-14 21:10:53 509

原创 【数据竞赛】“达观杯”文本智能处理挑战赛5

一、LightGBM模型1、XGBoost缺点每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。预排序方法(pre-sorted):首先,空间消耗大。这样的算法需要保存数据的特征值,还保存了特征排序的结果(例如排序后的索引,为了后续快速的计算分割点),这里需要消耗训练数据两倍的内存。其次时间上也...

2019-04-13 21:29:40 217

原创 集成学习(ensemble learning)(二)

接上一篇:集成学习(ensemble learning)。本篇对集成学习中的 Bagging 和 随机森林算法 进行总结。一、Bagging原理Bagging 的弱学习器之间没有依赖关系,可以并行计算。1、随机采样(BootStrap)自助法,即有放回的采样,也就是说,之前采集到的样本在放回后有可能继续被采集到。一般来讲,随机采样的样本数量和训练集样本数量一致为m,但是两者内容不同。若...

2019-04-13 15:19:24 820

原创 【爬虫】Scrapy爬取腾讯社招信息

目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。一、预备基础1、Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted 异步网络库来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...

2019-04-12 23:31:00 1087 1

原创 集成学习(ensemble learning)(一)

集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。一、集成学习概述基本思想:对于训练集数据,我们通过训练若干个个体学习器,通过一定的结合策略,就可以最终形成一个强学习器。http://www.c...

2019-04-12 11:26:32 559

原创 【数据竞赛】“达观杯”文本智能处理挑战赛4

一、逻辑回归逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型。1、概率估计LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 logistic() 函数进行二次加工后输出。逻辑回归模型的概率估计(向量形式)p^=hθ(x)=σ(θT⋅x)\hat{p}=h_\theta(x)=\sigma(\theta^T·x)p^​=hθ​...

2019-04-11 21:32:35 163

原创 【数据竞赛】“达观杯”文本智能处理挑战赛3

学习word2vec词向量原理并实践,用来表示文本要求:分享学习笔记和代码,【只有代码的等于没有完成】参考资料1)CS224:https://www.bilibili.com/video/av41393758/?p=22)https://github.com/Heitao5200/DGB/blob/master/feature/feature_code/train_word2vec.py...

2019-04-09 20:28:23 738

原创 【工具】镜像源

一、pip国内源:豆瓣:http://pypi.douban.com/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi....

2019-04-08 21:45:19 180

原创 【数据竞赛】“达观杯”文本智能处理挑战赛2

文章目录一、TF_IDF原理1、TF(item frequency)2、逆向文件频率IDF(inverse document frequency)3、TF-IDF二、TF-IDF算法实现1、方法一2、方法二三、达观实践一、TF_IDF原理TF-IDF(Term Frequency - Inverse Document Frequency,词频-逆文本频率)。TF-IDF是一种统计方法,用以评...

2019-04-06 15:30:20 348

原创 【数据竞赛】“达观杯”文本智能处理挑战赛1

一、数据竞赛简介“达观杯”文本智能处理挑战赛1、任务建立模型通过长文本数据正文(article),预测文本对应的类别(class)2、数据传送门:链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码: 58r9数据包含2个csv文件:train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词...

2019-04-05 13:06:31 544

原创 【工具】ubuntu下在百度云文件

文章目录1、安装 Chrome 插件 baiduexporter2、安装 Aria23、下载文件1、安装 Chrome 插件 baiduexporter传送门:链接: https://pan.baidu.com/s/1HEotrEDnHab3Tcj4NRuSBQ 提取码: 4qk9在Chrome浏览器中新开一个Tab,输入以下可以跳转到浏览器的插件管理chrome://extensi...

2019-04-05 10:24:48 804

原创 【NLP】Task5:神经网络基础

文章目录一、前馈神经网络二、简单的神经网络(tensorflow)前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。激活函数的种类以及各自的提出背景、优缺点。(和线性模型对比,线性模型的局限性,去线性化)深度学习中的正则化(参数范数惩罚:L1正则...

2019-03-28 22:14:36 1279

原创 【LeetCode】687. 最长同值路径

一、题目描述给定一个二叉树,找到最长的路径,这个路径中的每个节点具有相同值。 这条路径可以经过也可以不经过根节点。注意:两个节点之间的路径长度由它们之间的边数表示。二、示例示例 1:输入: 5 / \ 4 5 / \ \ 1 1 5输出:2示例 2:输入: 1 / \ 4 5 / ...

2019-03-26 22:10:28 191

原创 【NLP】Task3:特征选择

TF-IDF原理。文本矩阵化,使用词袋模型,以TF-IDF特征值为权重。(可以使用Python中TfidfTransformer库)互信息的原理。使用第二步生成的特征矩阵,利用互信息进行特征筛选。参考文本挖掘预处理之TF-IDF:https://www.cnblogs.com/pinard/p/6693230.html使用不同的方法计算TF-IDF值:https://www.jian...

2019-03-26 20:20:31 398 1

原创 【NLP实战】Task1 数据集探索

一、数据集1、THUCNews数据集传送门链接: https://pan.baidu.com/s/1lziUTaCF7VfnuAKXrGftTw 提取码: saag概述本数据集是清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。本次训练使用了其中的10个分类(体育, 财经, 房产, 家居, 教育, 科技, 时尚, ...

2019-03-26 09:17:21 1082 1

原创 【Python】list 之 extend 和 append 的区别

示例a = [1, 2, '3', '1']a.extend([1, 2])print(a)a.append([1, 2])print(a)输出结果[1, 2, '3', '1', 1, 2][1, 2, '3', '1', 1, 2, [1, 2]]list 之 extend 和 append 的区别列表可包含任何数据类型的元素,单个列表中的元素无须全为同一类型。ap...

2019-03-25 17:05:01 166

原创 【TensorFlow】笔记5:图像数据处理

文章目录一、TFRecords输入数据格式1、TFRecord格式介绍2、TFRecord样例程序(1)生成TFRecords文件(2)读取TFRecord文件目标:如何对图像数据进行预处理使得训练得到的神经网络模型尽可能小地被无关因素所影响。同时,为减小预处理对训练速度的影响,使用多线程处理。一、TFRecords输入数据格式TF统一存储数据的格式:TFRecords,二进制文件,可更好利...

2019-03-23 13:31:04 680 1

原创 【TensorFlow】笔记4:图像识别与CNN

文章目录一、图像识别&经典数据集1、Cifar数据集2、 ImageNet二、CNN三、卷积神经网络常用结构1、卷积层一、图像识别&经典数据集图像识别:希望借助计算机程序来处理、分析和理解图片中的内容,使得计算机可以从图片中自动识别各种不同模式的目标和对象。1、Cifar数据集Cifar-10:10种不同种类的60000张图像,像素大小为32*32的彩色图像Cifar-100:20 个大...

2019-03-20 21:12:16 3749 2

药材KG数据.rar

药材知识图谱示例数据,实体数据主要有两类,企业类、药材类。

2019-09-05

台湾大学机器学习技法笔记

台湾大学机器学习技法笔记-完整版 回顾一下我们之前介绍了linear classification,对于线性可分的情况,我们可以使用PLA/pocket算法在平面或者 超平面上把正负类分开。

2019-01-21

计算机二级C语言2017年9月 题库

计算机二级C语言2017年9月 题库,免序列号

2017-08-18

OpenCV3编程入门_毛星云编著_电子工业出版 第二部分

OpenCV3编程入门_毛星云编著_电子工业出版 第二部分

2015-11-29

OpenCV3编程入门_毛星云编著_电子工业出版 第一部分

OpenCV3编程入门_毛星云编著_电子工业出版 第一部分

2015-11-29

电磁智能车软件系统的设计与实现

电磁智能车软件系统的设计与实现 中国知网的论文

2015-06-15

ADXL345Protel99+Altium原理图

ADXL345 的Protel99 和 Altium原理图

2015-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除