- 博客(4)
- 收藏
- 关注
原创 小曹谈技术之中文分词
中文分词是中文信息处理的一项基础性技术。与英文不同,中文句子中的词汇之间没有用空格隔开,在对中文信息处理时,第一步就是要对中文句子进行中文分词。要进行中文分词,首先需要一本中文词汇词典。最简单的分词方法就是基于词典的正向最大匹配或者反向最大匹配了。复杂一点的处理方法有将中文分词建模成序列标注问题的,然后使用隐马尔科夫HMM模型或者条件随机场模型CRF来进行分词。另外还有基于概率的,例如使用
2010-03-07 11:10:00 2575
原创 小曹谈技术之网络爬虫
网络爬虫,主要作用是信息采集。自己最初接触信息检索系统就是接触的这一块。当时借助于开源的Nutch,构建了一个自己的垂直搜索引擎(中英文词检索)。Nutch中提供了构建一个自己的垂直搜索的所有必需的所有功能:网页爬取,分布式平台,分布式存储(Hadoop implemention of Mapreduce),网页正文提取(HtmlParser),倒排索引建立(Lucene),检索接口提供。当时
2010-03-05 18:10:00 2606
原创 小曹谈技术之机器翻译
机器翻译,顾名思义,就是使用计算机来进行语言之间的翻译。机器翻译是一个非常困难的人工智能任务,研究了多年了,目前有一些可行的方法,但是效果还是不能与人工翻译的效果相比。最简单的一个机器翻译系统的实现,就是一个查词表的翻译。 例如“我今天在学校吃的午餐”,现在手头上有一个词表,可以得到每个词的翻译。 首先分词“我 今天 在 学校 吃 的 午餐”, 词表内容“
2010-03-05 12:18:00 2199
原创 小曹谈技术之中文拼音输入法
首先说明中文输入法,由于在计算机的输入设备中,输入使用的键盘使用的是ascii码,只能输入英文字符串。中文输入法的作用是将用户输入的英文字符串转换为有意义的中文输入组合,输入计算机。常用的是拼音输入法,这种输入法是将汉字的拼音与英文字母直接映射起来,由于这是一一映射的关系,所以理解起来最直观,也应用的最广泛。其他的还有如五笔输入法,是将汉字的偏旁部首映射到英文字母上去,每个英文字母对应于若干个偏旁
2010-03-04 19:06:00 3285 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人