自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

转载 事件抽取的简单方法

再构建event graph, 不免要用到event extraction的方法,这里引用了一篇别人的总结作为参考学习https://www.cnblogs.com/cyandn/p/10915394.html关系抽取定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。通过关注两个实体间...

2019-09-23 19:46:00 599

转载 事理图谱的构建

本内容转自:版权声明:本文为CSDN博主「liuhuanyong_iscas」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/lhy2014/article/details/85247268目前关于事理图谱的构建方式上,主要包括领域专家手动构建以及基于海量文本自动化获取两种方法。前者准确...

2019-09-23 13:57:00 3307

转载 事理图谱-介绍

一、 认知智能 和 知识图谱认知智能的核心在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进行识别、判断、感知,思考强调机器能够运用知识进行推理和决策,主动学习突出机器进行知识运用和学习的自动化和自主化。这三个方面概括起来,就是强大的知识库、强大的知识计算能力以及计算资源。知识存在于我们的大脑当中,我们在从事社会活动的过程中,实际上是对知识的获取和使用过程。常见的...

2019-09-23 13:48:00 1378

转载 我们为什么要使用知识图谱【关于知识图谱的几个问题】

1.为什么知识图谱对于机器实现人工智能如此重要呢?知识图谱实现机器认知智能的两个核心能力:“理解”和“解释”。机器理解数据的本质是建立起从数据到知识库中的知识要素(包括实体、概念和关系)映射的一个过程。将知识库中的知识与问题或者数据加以关联的过程。有了知识图谱,机器完全可以重现我们的这种理解与解释过程。2.自然语言的理解为什么需要知识图谱?人类语言理解是建...

2019-08-30 16:12:00 563

转载 知识图谱与Bert结合

论文题目:ERNIE: Enhanced Language Representation with Informative Entities(THU/ACL2019)本文的工作也是属于对BERT锦上添花,将知识图谱的一些结构化信息融入到BERT中,使其更好地对真实世界进行语义建模。也就是说,原始的bert模型只是机械化地去学习语言相关的“合理性”,而并学习不到语言之间的语义联系,...

2019-08-30 16:08:00 1402

转载 【转】阿里知识图谱首次曝光:每天千万级拦截量,亿级别全量智能审核

借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地借助大数据、人工智能阻止坏人、问题商品进入阿里生态。同时面临问题商家实时的对弈、变异和恶意攻击等诸多挑战,知识图谱仍然保持着每天千万级别的拦截量,亿级别的全量智能审核次数,在滥发、侵权、合规、假货、经营范围等多个场景全面与问题卖家正面交锋,实时对弈。为了最大限度地保...

2019-08-20 19:21:00 159

转载 牛顿法

转载于:https://www.cnblogs.com/chenyusheng0803/p/11298302.html

2019-08-04 15:10:00 79

转载 locally weighted regression - CS229

欠拟合和过拟合看下方的三张图第一幅拟合为了 y=θ0+θ1xy=θ0+θ1x 的一次函数 第二幅拟合为了y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 的二次函数 第三幅拟合为了 y=∑5j=0θjxjy=∑j=05θjxj的五次项函数最左边的分类器模型没有很好地捕捉到数据特征,不能够很好地拟合数据,我们称为欠拟合而最右边的分类器分类了所有的数据,也包括噪声数据,...

2019-07-22 20:20:00 116

转载 Word2Vector 中的 Hierarchical Softmax

Overall Introduction之前我们提过基于可以使用CBOW或者SKIP-GRAM来捕捉预料中的token之间的关系,然后生成对应的词向量。常规做法是我们可以直接feed DNN进去训练,但是如果语料很多的话,那直接就爆机了。所以这时候,我们生成词向量的时候,换了一种其他的做法,也就是利用霍夫曼树。夫曼树的叶子节点起到输出层神经元的作用,叶子节点的个数即为词汇表...

2019-07-07 11:05:00 181

转载 知识图谱是金融机构迈向智能金融的重要台阶

随着与云计算、大数据、物联网等相关产业的协同发展,人工智能在历经60年的起伏之后,如今已经在全球范围形成了新一轮的抢位发展态势,不仅提供了经济创新发展的新动能,而且正成为助推各行各业转型升级的新引擎。国务院印发的《新一代人工智能发展规划的通知》也着重指出,应该“推动人工智能与各行业融合创新”,在重点行业和领域开展人工智能应用试点示范。众所周知,人工智能的底层支撑是大数据和算法,无疑应...

2019-07-03 17:34:00 202

转载 当知识图谱“遇见”深度学习

大数据时代的到来,为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下,人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽,深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现,这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习,...

2019-07-03 17:27:00 210

转载 CS224N Assignment1 Section 1

运行环境需求 1 # All Import Statements Defined Here 2 # Note: Do not add to this list. 3 # All the dependencies you need, can be installed by running . 4 # ---------------- 5 6 import sy...

2019-06-27 20:16:00 190

转载 词袋模型(BOW,bag of words)和词向量模型(Word Embedding)概念介绍

例句:Jane wants to go to Shenzhen.Bob wants to go to Shanghai.一、词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的。例如上面2个例句,就可以构成一个词袋,袋子里包括Jane、wants、to、go、Shenzhen、Bob、Shanghai。假设建立一个数组(或词典)...

2019-06-05 12:17:00 153

转载 pytorch tutorial 2

这里使用pytorch进行一个简单的二分类模型导入所有我们需要的库import torchimport matplotlib.pyplot as pltimport torch.nn.functional as F接着我们这里 生成我们需要的假数据# set seedtorch.manual_seed(1)# make fa...

2019-06-05 12:02:00 87

转载 pytorch tutorial 1

这里用torch 做一个最简单的测试目标就是我们用torch 建立一个一层的网络,然后拟合一组可以回归的数据import torchfrom torch.autograd import Variableimport torch.nn.functional as Fimport matplotlib.pyplot as pltx = torch.uns...

2019-05-11 16:21:00 90

转载 转 Pytorch 教学资料

本文收集了大量PyTorch项目(备查)转自:https://blog.csdn.net/fuckliuwenl/article/details/80554182目录:入门系列教程入门实例图像、视觉、CNN相关实现对抗生成网络、生成模型、GAN相关实现机器翻译、问答系统、NLP相关实现先进视觉推理系统深度强化学习相关实现通用神经网络高级应用...

2019-05-04 22:03:00 122

转载 符号分词和词频统计

现在有一段文本As I was waiting, a man came out of a side room, and at a glance I was sure he must be Long John. His left leg was cut off close by the hip, and under the left shoulder he carried a cr...

2019-04-30 11:20:00 254

转载 知识图谱在金融领域的应用

一. 知识图谱和金融领域简述什么是知识图谱?借鉴其中一个理解:知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。具体理论知识就不在此赘述,对于这个抽象的概念会有一篇文章来列举一个代表性的例子。知识图谱起源于语义网络,最初由Google提出用与优化搜索结果,发展至今已经应用于各个垂直化领域。从商业概念上,知识图谱可分为“通用知识...

2019-04-29 19:49:00 1387

转载 word文档的python解析

主要两块,第一个是文件类型的转换,第二个是用docx包去对word文档中的table进行parse1. 文件格式装换因为很多各种各样的原因,至今还有一些word文档是doc的格式存的,对于这种,如果我们想用python对这个word文档中的内容进行解析的话,理论上必须要处理成docx先。如果你刚好是个mac的用户,那你可以不用弄了,因为如果你用python+osx的系统,这个...

2019-04-01 01:31:00 313

转载 远程监督的方法进行关系抽取简介

1引言传统意义上讲,关系抽取是实体识别基础上的一个任务,其核心是抽取一个句子中包含实体对之间的关系。第一步就是训练一个关系抽取器,换句话讲就是训练一个关系分类器。因为模型不可能自己给关系起名字,所以我们需要人工的标注好语料,基于语料库我们一共有多少种关系。当模型训练好了之后,给它一个包含两个实体的句子,我们通过特征提取生成一个句子向量,通过根据语料数据训练出的关系抽取器来判定该句子应当分...

2019-03-25 00:07:00 604

转载 机器翻译质量评测算法-BLEU

机器翻译领域常使用BLEU对翻译质量进行测试评测。我们可以先看wiki上对BLEU的定义。BLEU (Bilingual Evaluation Understudy) is an algorithm for evaluating the quality of text which has been machine-translated from one natural langu...

2019-03-18 19:47:00 285

转载 线性代数基础

2-1、标量一个标量就是一个单独的数,一般用小写的的变量名称表示。2-2、向量一个向量就是一列数,这些数是有序排列的。用过次序中的索引,我们可以确定每个单独的数。通常会赋予向量粗体的小写名称。当我们需要明确表示向量中的元素时,我们会将元素排列成一个方括号包围的纵柱:我们可以把向量看作空间中的点,每个元素是不同的坐标轴上的坐标。2-3、矩阵矩阵是二维数组,其中的每一...

2019-03-03 21:13:00 110

转载 CS231中的python + numpy课程

本课程中所有作业将使用Python来完成。Python本身就是一种很棒的通用编程语言,现在在一些流行的库(numpy,scipy,matplotlib)的帮助下,它为科学计算提供强大的环境。我们希望课程中的大部分人都有一些Python和numpy的经验;对于其他人来说,本教程将作为Python用于科学计算的速成课程。基本数据类型与大多数语言一样,Python有许多基本类...

2019-02-11 14:01:00 140

转载 通俗理解N-gram语言模型。(转)

从NLP的最基础开始吧。。不过自己看到这里,还没做总结,这里有一篇很不错的解析,可以分享一下。N-gram语言模型考虑一个语音识别系统,假设用户说了这么一句话:“I have a gun”,因为发音的相似,该语音识别系统发现如下几句话都是可能的候选:1、I have a gun. 2、I have a gull. 3、I have a gub. 那么问题来了,到底哪一个是正确...

2019-02-11 12:51:00 106

转载 NLP常用术语解析

分词(Segment):中英文都存在分词的问题,不过相对来说,英文单词与单词之间本来就有空格进行分割,所以处理起来相对方便。但是中文书写是没有分隔符的,所以分词的问题就比较突出。分词常用的手段可以是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。另外就是当下主流的统计机器学习的办法,利用HMM/CRF这一类的模型解决词性标注(Label):基于机器学习的方...

2019-02-11 11:54:00 115

转载 改善Python 程序的 91 个建议

建议1、理解Pythonic概念—-详见Python中的《Python之禅》建议2、编写Pythonic代码(1)避免不规范代码,比如只用大小写区分变量、使用容易混淆的变量名、害怕过长变量名等。有时候长的变量名会使代码更加具有可读性。(2)深入学习Python相关知识,比如语言特性、库特性等,比如Python演变过程等。深入学习一两个业内公认的Pythonic的代码库,比如F...

2019-01-01 10:31:00 67

转载 简单的基于矩阵分解的推荐算法-PMF, NMF

介绍:推荐系统中最为主流与经典的技术之一是协同过滤技术(Collaborative Filtering),它是基于这样的假设:用户如果在过去对某些项目产生过兴趣,那么将来他很可能依然对其保持热忱。其中协同过滤技术又可根据是否采用了机器学习思想建模的不同划分为基于内存的协同过滤(Memory-based CF)与基于模型的协同过滤技术(Model-based CF)。其中基于模型的协同...

2018-12-24 00:07:00 1114

转载 SVM的代码实现-python

隔了好久木有更新了,因为发现自己numpy的很多操作都忘记了,加上最近有点忙.。。接着上次我们得到的迭代函数为首先j != yij = yiimport numpy as npdef svm_loss_naive(W, X, y, reg): """ Inputs: - W: A numpy array of ...

2018-12-16 23:45:00 368

转载 CS231-Multi-calss SVM的求导

接着上周的更,上周我们更到,在对图像的线性分类中,我们只用multi-class 的svm,然后我们得到以下的损失函数这里每个数值代表为下:X 是一个 N by D 的矩阵,N 代表 training data 的数量,D 代表每个 training data 的维度W 是一个 D by C 的矩阵,C 代表 class 的数量i 迭代 N 个 training ...

2018-11-26 01:00:00 288

转载 SVM的基础原理

因为看cs231的时候用了一下multi-class的svm,所以又把svm给复习了一下,教材是周志华的西瓜书,这里是大概的笔记。1.线性可分对于一个数据集:如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧,超平面如下:那么数据集D就是线性可分的,否则,不可分。w称为法向量,决定了超平面的方向;b为位移量,决定了超平面与原点的距离。样本...

2018-11-19 01:18:00 105

转载 仿射函数,线性函数以及泰勒公式还有泰勒估算...

1. 先说仿射函数和线性函数线性函数平常非常常见:这里我们是将一个4维的向量最后投射到一个1维的值。不过这里注意,这个函数是经过原点的。再看下仿射方程。这里我们可以看下他们的区别直观的区别就是会不会经过原点。知乎上有大佬是这么解释“仿射函数即由由1阶多项式构成的函数,一般形式为 f (x) = A x + b,这里,A 是一个 m×k ...

2018-11-10 17:18:00 704

转载 数据预处理-归一化/数据转换

有时候我们在拿到原始数据的时候,我们不能直接使用。大概场景有下面这些,我遇到的1. 数字比较大,容易爆计算量,更不容易收敛2. 比如房子价格这种变量,并不是正态分布,有时候不利于我们做一些和正态分布有关系的线性模型分析,那这个时候,我们可能需要对数据做一些预处理的工作。数据的标准化(normalization)和归一化 数据的标准化(normalizat...

2018-10-28 22:09:00 518

转载 shapefile的使用和地理信息的获得

Shapefile文件是美国ESRI公司发布的文件格式,因其ArcGIS软件的推广而得到了普遍的使用,是现在GIS领域使用最为广泛的矢量数据格式。官方称Shapefile是一种用于存储地理要素的几何位置和属性信息的非拓扑简单格式。一般地,Shapefile文件是多个文件的集合,至少包括一个shp,shx以及dbf文件。shp主文件使用变长记录存储空间几何数据,支持点,线,面等多种...

2018-10-27 17:34:00 737

转载 ROC,AUC,Precision,Recall,F1的介绍与计算

1. 基本概念1.1 ROC与AUCROC曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,ROC曲线称为受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve),AUC(Area Under Curve)是ROC曲线下的面积...

2018-10-13 19:22:00 248

转载 一个简单文本分类任务-EM算法-R语言

一、问题介绍概率分布模型中,有时只含有可观测变量,如单硬币投掷模型,对于每个测试样例,硬币最终是正面还是反面是可以观测的。而有时还含有不可观测变量,如三硬币投掷模型。问题这样描述,首先投掷硬币A,如果是正面,则投掷硬币B,如果是反面,则投掷硬币C,最终只记录硬币B,C投掷的结果是正面还是反面,因此模型中硬币B,C的正反是可观测变量,而硬币A的正反则是不可观测变量。这里,用Y表示可观测...

2018-09-30 01:57:00 878

转载 word2vec的原理(一)

最近上了公司的新员工基础培训课,又对NLP重新产生的兴趣。NLP的第一步大家知道的就是不停的写正则,那个以前学的还可以就不看了。接着就是我们在把NLP的词料在传入神经网络之前的一个预处理,最经典的就是2013年google提出的那个word2vec算法,所以最近想再把这个算法给好好学习一下,然后实现一下。1. 词向量基础用词向量来表示词并不是word2vec的首创,在很久之...

2018-09-24 20:27:00 81

转载 简单线性回归问题的优化(SGD)R语言

本编博客继续分享简单的机器学习的R语言实现。今天是关于简单的线性回归方程问题的优化问题常用方法,我们会考虑随机梯度递降,好处是,我们不需要遍历数据集中的所有元素,这样可以大幅度的减少运算量。具体的算法参考下面:首先我们先定义我们需要的参数的Notation上述算法中,为了避免过拟合,我们采用了L2的正则化,在更新步骤中,我们会发现,这个正则项目,对参数更新...

2018-09-16 19:25:00 959

转载 十大成长性人工智能技术

  ——对抗性神经网络。由一个不断产生数据的神经网络模块与一个持续判别所产生数据是否真实的神经网络模块组成的神经网络架构,创造出近似真实的原创图像、声音和文本数据,有望大幅提升机器翻译、人脸识别、信息检索的精度和准确性,未来将应用于自动驾驶、安防监控等领域。(其实这方面还可以做一些很有趣的事情,比如生成字体,生成人脸表情等)  ——胶囊网络。在深度神经网络中构建多层神经元模块,用以发...

2018-09-02 22:10:00 112

转载 KNN算法的实现(R语言)

一 . K-近邻算法(KNN)概述 最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。  KNN是通过测量不同特征值之...

2018-08-26 20:24:00 1218

转载 BS4爬取物价局房产备案价以及dataframe的操作来获取房价的信息分析

因为最近要买房子,然后对房市做了一些调研,发现套路极多。卖房子的顾问目前基本都是一派胡言能忽悠就忽悠,所以基本他们的话是不能信的。一个楼盘一次开盘基本上都是200-300套房子,数据量虽然不大,但是其实看一下也很烦要一页一页的翻,如果是在纸上的话,他们还不让你给带回去。所以就是在选一个价格楼层也合适的房子,基本上很不方便。但是幸运的是,合肥市的房子的所有的价格都在合肥是物价局上面公示出来...

2018-08-20 00:35:00 274

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除