- 博客(7)
- 资源 (13)
- 收藏
- 关注
转载 [转]基于大规模语料的新词发现算法
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大
2015-01-22 18:35:51 3079
原创 【原创】聊天机器人与自动问答技术
聊天机器人属于自动问答(Question Answering)的一个方向,对它的研究很大一部分源自于图灵测试,本文主要探讨一下基本的聊天机器人技术的基本原理和实现机制。
2015-01-21 11:18:43 20724
转载 [转]NFA/DFA算法
作者:陈梓瀚 (http://www.cppblog.com/vczh/)1、问题概述随着计算机语言的结构越来越复杂,为了开发优秀的编译器,人们已经渐渐感到将词 法分析独立出来做研究的重要性。不过词法分析器的作用却不限于此。回想一下我们的老师刚刚开始向我们讲述程序设计的时候,总是会出一道题目:给出一个填入 了四则运算式子的字符串,写程序计算该式子的结果。除此之外,我们有时候建立了比较复杂的配置文
2015-01-19 21:42:58 6466
转载 [转]数据挖掘 - 分词入门
数据挖掘 - 分词入门摘要:谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,难以下手、非常头大!我们可以跳
2015-01-09 15:16:10 1885 1
原创 【原创】NLP中的中文分词技术
分词就是对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。是自然语言处理(NLP)的一种基础技术形态,中文因为特殊性,跟英文等自然语言处理方式不同,本文主要是探讨中文的分词技术。
2015-01-09 14:46:37 13383 1
转载 [转]Trie树优化算法:Double Array Trie 双数组Trie
Trie逻辑结构 Trie是一种常见的数据结够,可以实现前缀匹配(hash是不行的),而且对于词典搜索来说也是O(1)的时间复杂度,虽然比不上Hash,但是空间会省不少。 比如下图表示了包含“pool, prize, preview, prepare, product, progress"的一个Trie Trie的逻辑结构:每个圆圈都表示一个状态,比
2015-01-08 16:33:56 8702 1
原创 【原创】一步一步理解Paxos算法
Paxos算法是Lamport于1990年提出的一种基于消息传递的一致性算法。由于算法难以理解起初并没有引起人们的重视,使Lamport在八年后重新发表到TOCS上。即便如此paxos算法还是没有得到重视,2001年Lamport用可读性比较强的叙述性语言给出算法描述。可见Lamport对paxos算法情有独钟。近几年paxos算法的普遍使用也证明它在分布式一致性算法中的重要地位。06年google的三篇论文初现“云”的端倪,其中的chubby锁服务使用paxos作为chubby cell中的一致性算法,p
2015-01-05 19:06:56 8901 1
PHP&Go程序员的职业规划-黑夜路人.1.2.pptx
2020-07-08
The.Definitive.Guide.to.SQLite
2007-08-09
PHP安全基础中文版
2007-08-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人