word2vec使用总结

1.算法概述   Word2Vec是一个可以将语言中的字词转换为向量表达(Vector Respresentations)的模型,Word2vec可以将字词转为连续值的向量表达,并且其中意义相近的词将被映射到向量空间中相近的位置。 其主要依赖的假设是Distributional Hypothe...

2018-08-02 18:01:35

阅读数 608

评论数 1

基于词典的实体识别

ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。 在不需发现未知词的情况下基于词典的实体识别已足够 基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库) 字符串多模匹配 多模匹配有两种基本算法:trie树 和 记录长度集合的最...

2018-08-02 10:35:26

阅读数 1464

评论数 0

知识图谱研讨会(武汉大学站)笔记

演讲的议题学术界和工业界各一半,参加研讨会的人很多,以武汉高校学生为主,也有不少工业界人士,名单里看到了不少华为的,也有个别京东/百度人士,大家对知识图谱的关注度都很高目前的应用主要集中在智能问答,其它应用场景较少。下面讲一下各个课题的重点领域知识图谱落地实践中问题与对策演讲者:肖仰华 复旦大学知...

2018-05-03 14:43:02

阅读数 705

评论数 0

小米工作感言

在小米工作过两年(2014-2016),简单谈一下感受成长公司牛人较多(入职考核比较苛刻),有来自谷歌,微软,腾讯,阿里,百度的大牛,而且很多是工作多年的,跟他们一起工作,学到很多东西;公司业务很多,该做的事很多,而且大部分业务快速成长中,个人机会也就很多制度文化制度扁平,没那么多臃肿制度(反例:...

2018-03-19 18:00:09

阅读数 3296

评论数 0

SparkGraphX介绍

1 并行图计算从社交网络到自然语言建模,图数据的规模和重要性已经促进了许多并行图系统的发展(例如Giraph和GraphLab等)。通过限制可描述的计算类型以引入新的划分图的方法,这些图计算模型可以有效地执行复杂的图算法,效率远远高于更通用的数据并行系统。下图比较了常见的数据并行模型和图并行模型。...

2018-03-14 19:41:37

阅读数 2201

评论数 0

图谱推理规则提取调研

相关算法基于路径排序学习方法(PRA,Pathranking Algorithm)思想:该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,绕开规则提取步骤直接推理缺点:这种基于关系的同现统计的方法,面临严重的数据稀疏问题,...

2018-03-07 16:07:43

阅读数 801

评论数 0

Finite State Transducer(FST)in NLP

在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如说:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的mathematical操作,比如说把若干个规则整合成一个single pass或mega rule,这样做呢,就可以很有效的提高rule-based syste...

2018-01-08 14:56:43

阅读数 1954

评论数 0

Github 本周最有趣的 10 款「机器学习」开源项目

Face Recognition #世界上最简单的人脸识别库 本项目号称世界上最简单的人脸识别库,可使用 Python 和命令行进行调用。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild...

2018-01-03 20:25:05

阅读数 720

评论数 0

基于Datalog的知识推理

应用场景 知识补全:通过推理补充图谱中还未存在的关系(边) 一致性检查:新录入的知识与已有知识的冲突检查 Prolog Prolog语言是以一阶谓词逻辑为理论基础的逻辑程序设计语言,是人工智能程序设计语言族中应用最为广泛的的一种。 Prolog的基本语句有三种:事实 规则 目标 ...

2017-12-29 16:03:56

阅读数 1501

评论数 0

如何成为一名对话系统工程师

对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。 对话系统技能进阶之路 图1给出的诸多对话系统相关技术,从哪些渠道...

2017-12-05 17:28:05

阅读数 551

评论数 0

基于神经网络的实体识别和关系抽取联合学习

引言 本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体 1-关系-实体 2,三元组),这里的关系是我们预定义好的关系类型,例如下图: 目前有两大类方法,一种是使用流水线的方法(Pipelined Method)进行抽取:输入一个句...

2017-12-04 13:47:28

阅读数 561

评论数 0

阿里智能对话交互技术实践与创新

过去 20 多年,互联网及移动互联网将人类带到了一个全新的时代,如果用一个词来总结和概括这个时代的话,「连接」这个词再合适不过。这个时代主要建立了四种连接:第一,人和商品的连接;第二,人和人的连接;第三,人和信息的连接;第四,人和设备的连接。 「连接」本身不是目的,它只是为「交互」建立了通道...

2017-12-04 11:28:26

阅读数 1587

评论数 0

从CNN视角看在自然语言处理上的应用

1. 前言卷积神经网络(Convolutional Neural Network)最早是应用在计算机视觉当中,而如今 CNN 也早已应用于自然语言处理(Natural Language Processing)的各种任务。本文主要以 CMU CS 11-747 (Neural Networks fo...

2017-11-30 15:02:46

阅读数 514

评论数 0

一文读懂自然语言处理NLP

前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的...

2017-11-30 09:44:32

阅读数 8579

评论数 0

揭开知识库问答KB-QA的面纱3·信息抽取篇

本期我们将介绍 KB-QA 传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学 Yao X, Van Durme B. 的 Information Extraction ove...

2017-11-30 09:25:27

阅读数 713

评论数 0

常见面试之机器学习算法思想简单梳理

前言:   找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不...

2017-11-16 14:15:09

阅读数 491

评论数 0

redis优缺点总结

优点: 1 读写性能优异 2 支持数据持久化,支持AOF和RDB两种持久化方式 3 支持主从复制,主机会自动将数据同步到从机,可以进行读写分离。 4 数据结构丰富:除了支持string类型的value外还支持string、hash、set、sortedset、list等数据结构。 ...

2016-04-29 14:32:58

阅读数 39140

评论数 2

Redis关键点(自动bgrewriteaof)

Redis 2.4版本做了很多功能改进,尤其是aof这块变动较大。增加了自动的bgrewriteaof,开启两个后台线程来避免主线程fsync、rename、close等阻塞操作,另外修复了出现重复命令进入aof文件的bug,下面是基于2.4.1的源码aof这块的改进分析。 旧的版本问题主要...

2016-04-29 14:17:03

阅读数 1856

评论数 0

hbase二级索引

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index...

2016-04-26 17:50:43

阅读数 1420

评论数 0

准确率、精确率、召回率 F1

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。 准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也...

2016-04-25 16:59:33

阅读数 1784

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭