自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

heiyeluren的blog(黑夜路人的开源世界)

公众号:heiyeluren2012 / github.com/heiyeluren

  • 博客(7)
  • 资源 (13)
  • 收藏
  • 关注

转载 [转]基于大规模语料的新词发现算法

对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西—— 未登录词。中文没有首字母大

2015-01-22 18:35:51 3035

原创 【原创】聊天机器人与自动问答技术

聊天机器人属于自动问答(Question Answering)的一个方向,对它的研究很大一部分源自于图灵测试,本文主要探讨一下基本的聊天机器人技术的基本原理和实现机制。

2015-01-21 11:18:43 20539

转载 [转]NFA/DFA算法

作者:陈梓瀚  (http://www.cppblog.com/vczh/)1、问题概述随着计算机语言的结构越来越复杂,为了开发优秀的编译器,人们已经渐渐感到将词 法分析独立出来做研究的重要性。不过词法分析器的作用却不限于此。回想一下我们的老师刚刚开始向我们讲述程序设计的时候,总是会出一道题目:给出一个填入 了四则运算式子的字符串,写程序计算该式子的结果。除此之外,我们有时候建立了比较复杂的配置文

2015-01-19 21:42:58 6383

转载 [转]数据挖掘 - 分词入门

数据挖掘 - 分词入门摘要:谷歌4亿英镑收购人工智能公司DeepMind,百度目前正推进“百度大脑”项目,腾讯、阿里等各大巨头布局深度学习。随着社会化数据大量产生,硬件速度上升、成本降低,大数据技术的落地实现,让冷冰冰的数据具有智慧逐渐成为新的热点。要从数据中发现有用的信息就要用到数据挖掘技术,不过买来的数据挖掘书籍一打开全是大量的数学公式,而课本知识早已还给老师了,难以下手、非常头大!我们可以跳

2015-01-09 15:16:10 1849 1

原创 【原创】NLP中的中文分词技术

分词就是对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。是自然语言处理(NLP)的一种基础技术形态,中文因为特殊性,跟英文等自然语言处理方式不同,本文主要是探讨中文的分词技术。

2015-01-09 14:46:37 13208 1

转载 [转]Trie树优化算法:Double Array Trie 双数组Trie

Trie逻辑结构      Trie是一种常见的数据结够,可以实现前缀匹配(hash是不行的),而且对于词典搜索来说也是O(1)的时间复杂度,虽然比不上Hash,但是空间会省不少。       比如下图表示了包含“pool, prize, preview, prepare, product, progress"的一个Trie              Trie的逻辑结构:每个圆圈都表示一个状态,比

2015-01-08 16:33:56 8598 1

原创 【原创】一步一步理解Paxos算法

Paxos算法是Lamport于1990年提出的一种基于消息传递的一致性算法。由于算法难以理解起初并没有引起人们的重视,使Lamport在八年后重新发表到TOCS上。即便如此paxos算法还是没有得到重视,2001年Lamport用可读性比较强的叙述性语言给出算法描述。可见Lamport对paxos算法情有独钟。近几年paxos算法的普遍使用也证明它在分布式一致性算法中的重要地位。06年google的三篇论文初现“云”的端倪,其中的chubby锁服务使用paxos作为chubby cell中的一致性算法,p

2015-01-05 19:06:56 8847 1

PHP&Go程序员的职业规划-黑夜路人.1.2.pptx

2020年3月份的时候,给我们公司大概1900名技术伙伴进行了在线的这个分享,分享内容主要是讨论一个PHP/Go 程序员如何进行个人的发展和规划,每个技术人员在发展过程中都会遇到这个问题,也从一个程序员的视角进行了个人经验总结和思考。 今天把相应分享PPT分享,希望给每一位PHP/Go程序员有一些参考意义。

2020-07-08

Bash新手指南

Linux/Unix shell Bash 编程入门到精通的手册,中文版,chm, 非常详细的描述了bash的语法和实例,能够让你成为Shell编程高手。

2007-09-11

The.Definitive.Guide.to.SQLite

The.Definitive.Guide.to.SQLite,PDF格式,目前市面上比较难找的比较全面讲解SQLite的书籍,英文,不过适合想研究和使用SQLite的用户

2007-08-09

PHP.5.Power.Programming

PHP.5.Power.Programming,chm格式,英文版,目前市面上最深入的讲解PHP 5高级技术的书籍,值得一读

2007-08-09

PHP安全基础中文版

PHP安全基础中文版,CHM格式,由PHPChina组织人翻译的,是入门的PHP安全教程,原书是:OReilly 公司的《Essential.PHP.Security》

2007-08-09

PHP设计模式指南中文版

PHP设计模式指南中文版,CHM,由国内的PHPChina组织人翻译的,非常不错。

2007-08-09

PHP 5 dvanced OOP and Design Patterns

PHP 5 dvanced OOP and Design Patterns,英文版,PDF格式

2007-08-09

Ruby中文参考手册

Ruby中文参考手册,HTML格式,我已经打包成rar,主要是关于Ruby1.8.1的中文参考手册,囊括了大部分的函数、对象和接口的中文帮助信息

2007-08-09

Ruby用户指南

Ruby用户指南,HTML格式,我已经打成了rar包,主要是关于ruby入门的一些知识,比较简单

2007-08-09

Perl编程思想

Perl编程思想,关于Perl编程的入门和高级篇,PDF格式,书籍写的非常好。

2007-08-09

Linux C函数参考手册

Linux C函数参考手册.rar,包含Word和PDF版本,我已经打成了rar包,方便在windows或者linux上查看,确实是个不错的手册

2007-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除