自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 word2vec使用总结

1.算法概述   Word2Vec是一个可以将语言中的字词转换为向量表达(Vector Respresentations)的模型,Word2vec可以将字词转为连续值的向量表达,并且其中意义相近的词将被映射到向量空间中相近的位置。 其主要依赖的假设是Distributional Hypothe...

2018-08-02 18:01:35 997 0

原创 基于词典的实体识别

ner(命名实体识别)一般是词典和模型方式结合,词典负责已有词识别,模型负责未知词识别。 在不需发现未知词的情况下基于词典的实体识别已足够 基于字典的ner也有两种做法:字符串多模匹配 和 切词(词典加入自定义词库) 字符串多模匹配 多模匹配有两种基本算法:trie树 和 记录长度集合的最...

2018-08-02 10:35:26 4257 1

原创 知识图谱研讨会(武汉大学站)笔记

演讲的议题学术界和工业界各一半,参加研讨会的人很多,以武汉高校学生为主,也有不少工业界人士,名单里看到了不少华为的,也有个别京东/百度人士,大家对知识图谱的关注度都很高目前的应用主要集中在智能问答,其它应用场景较少。下面讲一下各个课题的重点领域知识图谱落地实践中问题与对策演讲者:肖仰华 复旦大学知...

2018-05-03 14:43:02 1765 0

原创 小米工作感言

在小米工作过两年(2014-2016),简单谈一下感受成长公司牛人较多(入职考核比较苛刻),有来自谷歌,微软,腾讯,阿里,百度的大牛,而且很多是工作多年的,跟他们一起工作,学到很多东西;公司业务很多,该做的事很多,而且大部分业务快速成长中,个人机会也就很多制度文化制度扁平,没那么多臃肿制度(反例:...

2018-03-19 18:00:09 5146 1

原创 SparkGraphX介绍

1 并行图计算从社交网络到自然语言建模,图数据的规模和重要性已经促进了许多并行图系统的发展(例如Giraph和GraphLab等)。通过限制可描述的计算类型以引入新的划分图的方法,这些图计算模型可以有效地执行复杂的图算法,效率远远高于更通用的数据并行系统。下图比较了常见的数据并行模型和图并行模型。...

2018-03-14 19:41:37 5006 0

原创 图谱推理规则提取调研

相关算法基于路径排序学习方法(PRA,Pathranking Algorithm)思想:该方法将每种不同的关系路径作为一维特征,通过在知识图谱中统计大量的关系路径构建关系分类的特征向量,建立关系分类器进行关系抽取,绕开规则提取步骤直接推理缺点:这种基于关系的同现统计的方法,面临严重的数据稀疏问题,...

2018-03-07 16:07:43 1709 0

转载 Finite State Transducer(FST)in NLP

在自然语言处理中,经常会遇到一些针对某些内容法则做出修改的操作,比如说:如果c的后面紧接x的话,则把c变为b,FST则是基于这些规则上的mathematical操作,比如说把若干个规则整合成一个single pass或mega rule,这样做呢,就可以很有效的提高rule-based syste...

2018-01-08 14:56:43 2639 0

转载 Github 本周最有趣的 10 款「机器学习」开源项目

Face Recognition #世界上最简单的人脸识别库 本项目号称世界上最简单的人脸识别库,可使用 Python 和命令行进行调用。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild...

2018-01-03 20:25:05 824 0

原创 基于Datalog的知识推理

应用场景 知识补全:通过推理补充图谱中还未存在的关系(边) 一致性检查:新录入的知识与已有知识的冲突检查 Prolog Prolog语言是以一阶谓词逻辑为理论基础的逻辑程序设计语言,是人工智能程序设计语言族中应用最为广泛的的一种。 Prolog的基本语句有三种:事实 规则 目标 ...

2017-12-29 16:03:56 3208 0

转载 如何成为一名对话系统工程师

对话系统(对话机器人)本质上是通过机器学习和人工智能等技术让机器理解人的语言。它包含了诸多学科方法的融合使用,是人工智能领域的一个技术集中演练营。图1给出了对话系统开发中涉及到的主要技术。 对话系统技能进阶之路 图1给出的诸多对话系统相关技术,从哪些渠道...

2017-12-05 17:28:05 721 0

转载 基于神经网络的实体识别和关系抽取联合学习

引言 本文关注的任务是从无结构的文本中抽取实体以及实体之间的关系(实体 1-关系-实体 2,三元组),这里的关系是我们预定义好的关系类型,例如下图: 目前有两大类方法,一种是使用流水线的方法(Pipelined Method)进行抽取:输入一个句...

2017-12-04 13:47:28 763 0

转载 阿里智能对话交互技术实践与创新

过去 20 多年,互联网及移动互联网将人类带到了一个全新的时代,如果用一个词来总结和概括这个时代的话,「连接」这个词再合适不过。这个时代主要建立了四种连接:第一,人和商品的连接;第二,人和人的连接;第三,人和信息的连接;第四,人和设备的连接。 「连接」本身不是目的,它只是为「交互」建立了通道...

2017-12-04 11:28:26 1727 0

转载 从CNN视角看在自然语言处理上的应用

1. 前言卷积神经网络(Convolutional Neural Network)最早是应用在计算机视觉当中,而如今 CNN 也早已应用于自然语言处理(Natural Language Processing)的各种任务。本文主要以 CMU CS 11-747 (Neural Networks fo...

2017-11-30 15:02:46 709 0

转载 一文读懂自然语言处理NLP

前言 自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。 对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的...

2017-11-30 09:44:32 11998 0

转载 揭开知识库问答KB-QA的面纱3·信息抽取篇

本期我们将介绍 KB-QA 传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学 Yao X, Van Durme B. 的 Information Extraction ove...

2017-11-30 09:25:27 934 0

转载 常见面试之机器学习算法思想简单梳理

前言:   找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可以考虑考虑该岗位,毕竟在机器智能没达到人类水平之前,机器学习可以作为一种重要手段,而随着科技的不...

2017-11-16 14:15:09 582 0

原创 redis优缺点总结

优点: 1 读写性能优异 2 支持数据持久化,支持AOF和RDB两种持久化方式 3 支持主从复制,主机会自动将数据同步到从机,可以进行读写分离。 4 数据结构丰富:除了支持string类型的value外还支持string、hash、set、sortedset、list等数据结构。 ...

2016-04-29 14:32:58 40392 2

转载 Redis关键点(自动bgrewriteaof)

Redis 2.4版本做了很多功能改进,尤其是aof这块变动较大。增加了自动的bgrewriteaof,开启两个后台线程来避免主线程fsync、rename、close等阻塞操作,另外修复了出现重复命令进入aof文件的bug,下面是基于2.4.1的源码aof这块的改进分析。 旧的版本问题主要...

2016-04-29 14:17:03 2003 0

转载 hbase二级索引

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index...

2016-04-26 17:50:43 1535 0

转载 准确率、精确率、召回率 F1

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。 准确率、召回率、F1 信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也...

2016-04-25 16:59:33 1908 0

转载 58到家通用实时消息平台架构细节

一、解决什么问题 + 难点 解决什么业务问题 (1)端到云的实时上报需求:58速运司机端GPS实时上报 (2)云到端的实时推送需求:58速运司机订单实时推送 (3)端到端的聊天消息需求:用户、商户、客服之间的聊天沟通 难点: (1)APP无线环境下消息可达性 ...

2016-04-23 14:05:57 3174 0

转载 阿里P8分享:关于做事方式与做事态度

阿里P8分享:关于做事方式与做事态度 贴图1: 贴图2: 贴图3:

2016-04-22 14:28:18 4927 0

原创 研发管理总结

我的研发管理之路已有两年,在此总结一下经验得失   1 团队文化 我觉得团队建设一般由几个过程:茫然混乱,强制规则,自觉习惯,主动创造。 茫然混乱阶段,靠工程师自我素质,道德束缚,靠个人英雄完成任务,走弯路,内耗,意外事件特多,品质因人因时不同等。 强制规则阶段,须先有规则,流程,但流程不能深刻...

2016-04-20 17:14:55 4107 1

原创 codis评测

一. 压测环境 1台3u8机器(PHP-C3)、1台lg 3u8机器(PHP-LG):运行PHP脚本,发起codis读写请求 3台3u8机器(CODIS-C3):codis集群,运行1个proxy实例、2组redis(每组1主2从),proxy与redis混部   二. 压测方式 1. 在PHP-...

2016-04-19 15:27:02 2884 1

转载 RabbitMq、ActiveMq、ZeroMq、kafka之间的比较

MQ框架非常之多,比较流行的有RabbitMq、ActiveMq、ZeroMq、kafka。这几种MQ到底应该选择哪个?要根据自己项目的业务场景和需求。下面我列出这些MQ之间的对比数据和资料。 第一部分:RabbitMQ,ActiveMq,ZeroMq比较 1、 TPS比较 一...

2016-04-19 14:39:27 2399 0

转载 保证分布式系统数据一致性的6种方案

问题的起源 在电商等业务中,系统一般由多个独立的服务组成,如何解决分布式调用时候数据的一致性?  具体业务场景如下,比如一个业务操作,如果同时调用服务 A、B、C,需要满足要么同时成功;要么同时失败。A、B、C 可能是多个不同部门开发、部署在不同服务器上的远程服务。 在分布式系...

2016-04-19 10:57:19 13960 0

转载 Impala与Hive的比较

1. Impala架构        Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Plan...

2016-04-18 17:31:02 1262 0

转载 深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 可以跳过不符合条件的数据,只读取需要的数据,...

2016-04-18 16:58:07 967 0

转载 VR、AR、MR、CR到底如何区分

VR的概念想必大家都比较清楚了,这里一带而过,重点讲述AR、MR和CR的区别。 VR Vitual Reality,虚拟现实,是利用计算设备模拟产生一个三维的虚拟世界,提供用户关于视觉、听觉等感官的模拟,有十足的「沉浸感」与「临场感」。俗话说就是,你看到的所有东西都是计算机生成...

2016-04-18 11:20:50 1247 0

原创 大数据驱动的云客服

在互联网时代,除了用户数、营业额等,数据已经被认为是未来的核心资源。        大数据为云客服可以在以下几方面发挥作用:   1、近期:智能客服机器人 客服机器人可分四代 第一代:基于关键词精确匹配,简单有效。例如,在微信公众号平台回复一些关键字词,获取某篇文章或活动入口 第二代:支持多个...

2016-04-15 15:58:35 1113 0

转载 异常行为分析模型设计

本文针对异常访问现状及问题进行简要描述,在此基础上提出基于一元线性回归的最小二乘法异常访问分析模型,通过该模型解决了异常访问中时间与访问间相关性问题。 异常访问是指网络行为偏离正常范围的访问情况。异常访问包含多种场景,如Web访问、数据库访问、操作系统访问、终端交互等。 异常访问一直是...

2016-04-14 13:46:43 4287 1

转载 开源的DevOps开发工具箱

DevOps是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。在DevOps的整个流程中,使用一些开源工具可以促进开发与运维之间的沟通,有利于项目的管理,甚至可以达到事半功倍的效果。 本文作者Richard Kraaije...

2016-04-11 19:38:28 1462 0

转载 etcd VS zookeeper

背景 coreOS中使用了etcd作为集群配置服务,拥有众多出色的特点,etcd是一个key,value的数据服务器,单实例可达每秒 1000 次写操作,以及方便的REST接口。 zookeeper则是在Hadoop中大放光彩的分布式协调服务,提供了分布式锁,数据同步,等服务。 从功能...

2016-04-11 19:20:03 4275 0

转载 流失用户研究方法及流程

大量的用户流失给我们的产品带来极大的挑战,用户为什么流失?流失之后去哪儿了?怎么挽留现有用户?怎么“召回”已流失用户?本文以“手机QQ音乐播放器流失用户研究”为例,谈一下自己的理解,供大家参考。 一、先把相关术语搞清楚   有些术语团队内部之前会有定义,没有错误的话,只需要理解和延用即可。有些...

2016-04-02 20:53:37 1165 0

转载 对线性回归,logistic回归和一般回归的认识

1 摘要       本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。      讲义最初...

2016-04-02 18:04:38 1071 0

转载 用Kibana和logstash快速搭建实时日志查询、收集与分析系统

Logstash是一个完全开源的工具,他可以对你的日志进行收集、分析,并将其存储供以后使用(如,搜索),您可以使用它。说到搜索,logstash带有一个web界面,搜索和展示所有日志。 kibana 也是一个开源和免费的工具,他可以帮助您汇总、分析和搜索重要数据日志并提供友好的web界面。他可以...

2016-03-31 19:06:54 991 0

转载 贝叶斯分类

朴素贝叶斯分类 1.1、摘要        贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的...

2016-03-31 11:44:28 696 0

转载 文本聚类算法分析

1. 传统的文本聚类算法   传统的文本聚类算法分为以下几种 1.1 分割方法(partitioning methods) 1.1.1 K-MEANS算法: 工作原理: 首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心...

2016-03-30 22:34:02 668 0

转载 主题提取

随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、BBS、聊天室、博客、聚合新闻(RSS)。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。网络舆情形成迅速,...

2016-03-30 21:28:45 3576 0

转载 SparkShell实战

1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(Driver Program):运行Application的main()函数并且创建SparkCo...

2016-03-27 20:34:21 5391 0

提示
确定要删除当前文章?
取消 删除