关于自然语言处理的几个片段

原创 2003年11月29日 23:04:00

 <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

    我所希望的工作,基本上就是自然语言处理了。只是这个方向上,我需要学习的还非常的多。目前我在看些专业书籍;但把以前的几个镜头连一连,觉得还是很有意思的。

 

                                        一,关于分词的一篇短文

    我也测试了一下,是以前的一篇文章的首段,很明显的个人风格。如下:

 

读万卷书,行万里路,便是今生的两个愿望吧。

读书,算是旧习;大学已过多半,一回首,除了师友欢颜,东湖碧波,便是那一册册的书了。可是计算机专业,比不得其他,书也颇是个花费。所以收拾收拾,列个单子,给痴书的伙伴一个参考;然而,我可不是在做广告呀~得说明如下:

 

    海量分词演示的结果如下:

 

万卷 万里 便是 今生 两个 愿望

 读书 算是 旧习 大学 多半 一回 除了 师友 欢颜 东湖 碧波 便是 一册册 可是 计算机 专业 不得 其他 花费 所以 收拾 收拾 单子 伙伴 一个 参考 然而 广告 ~ 说明 如下  

 

    大部分还是不错的。但看“一回首”,这是个最关键的,因为“回”处的歧义最大,前后都可为词;此处我的意思当然是“回首”了,可很遗憾。

    分词虽是个难点,但我觉得不能分开来看,来强调分词。同一段文章,我用联通国际即时翻译翻译成英文,效果如下:

 

     It is two hopes of this life to read ten thousand books and walk ten thousand li. Study and can be regarded as old to practise; University already too much halves, turn one's head at one, at teachers and friends joyous faces, East lake and bluish waves are books of that volume. But the speciality of the computer, does not win the others than, the book is quite a piece of cost. It tidies up it arranges pieces of list give silly the one of partners of book consult; However, I am not advertising but must prove as follows :

Time:10.428secs

 

    对语义块和句式的判断,还是比较糟糕的;但从turn one's head at one看来,“一回首”还是给断对了:)。如果用同样的服务器把这段英文翻译成汉语,天哪!都不认识了!如下:

 

二个希望的要读1万本书并且走1万毫克分子的这几次生活的研究并且可能被当作当时老练习; 已经的大学太多两半, 转动一个人头在一,在教师和朋友,充满快乐脸,东部湖和带蓝色波是那卷的书。 但是计算机的专业,与比,书是相当不错的费用比,不要赢得其他。 整理安排的碎片目录给傻书的合伙人中的那个商议; 但是,我不是广告,但是必须证明如下:

 

    这种处理结果,让我觉得这条路还长着呢。大家以为呢?

    另外,我是一个大四的学生,来海量科技还有个不请之请。我想深入的学习自然语言处理的知识,公司的前辈们可否给介绍几本书?非常感谢!

 

                                                二,关于HNC的反面评论

    1,我也看过HNC理论的书,不过不太认同“概念符号假设”,实际上我看不出来HNC同乔姆斯基的生成语法学及其弟子们演化出的生成语义学有什么大的区别。指望HNC去解决自然语言理解问题基本上是不太可能的,特别是对东方语言来说。另外一点就是HNC及其所承袭的乔姆斯基系理论,都没有考虑语言习得和语言的演化。从语言变化的角度来看,HNC就站不住,因为不可能用符号智能的方法来解决完美的概念映射的自学习。所以我认为还是基于语料统计的连接主义的方法才能最终解决NLU问题。只可惜现在HMM方法不能很好的表现语言的结构,使语料库方法停止不前。XCOOL

    2 HNC只是一种学说而已,走的是基于规则的NLP老路,而这条路被证明无法处理大规模真实文本。黄先生的特点是不关心国际国内语言处理的主流技术,一心带弟子搞玄妙的东西。由于其理论的缺陷,HNC不可能出现什么可以供demo的东西,即使出了产品或者可供demo的东西,也无法达到较好的性能。 请初学者一定要小心。chris

    对于评论1,有如下参考意见,是晋耀红先生通过Email与我解答的:

    "关于网友的观点,确实是代表了很多人的看法。但HNC和乔姆斯基的生成语法学倒是有本质的不同,后者顾名思义关注的是语言的生成,而前者关注的是语言的理解,理解和生成是自然语言到语言概念空间的映射和反映射的过程,理解的重点是语义关联性(是否能正确理解),生成的重点是语法的规范性(生成的句子是否合乎语法)。"

 

    "关于“语言习得和语言的演化”,则是语言的历时性,是语言学者关心的问题,而我们现在的焦点是让计算机达到一个小学生、中学生的水平,还不敢奢望这个层次。你如果问一个小学生,什么是“语言的演化”,恐怕得不到答案,同样,就计算机目前的水平,也不要要求计算机做到。"

   "以上观点,仅供探讨。"

 

       至于评论2,就不谈了。现在对于HNC来讲,还有相当多的理论部分正在开创当中,还没有完成。而相应的产品化工作,也刚开始。理论本身有多大的缺陷,当然还得检验,还得不断完善。我却真心的希望,HNC团队能再接再厉,勇往直前。

 

                                                        三,最后的话

       我相信,这项工作虽是万难,但有志之士也是愿意一攀的。

        读过黄曾阳先生一首词,觉得很好,就放在最后:       

临江仙

胜券在中华

 

计算语言谁主事?

千年老叟当家。

统计神功众口夸。

廿年热望后,

智者叹无涯。

 

虽是一层窗户纸,

尽遮真理光霞。

撕开一角激惊讶。

莫听悲观论,

胜券在中华。

    其实学术上的问题,技术上的问题,无论大家的意见如何,流派如何,我们可以进行争论,但我真心祝愿,大家都能在自己的岗位上,辛勤劳作。我们就不信,对于自然语言处理,胜券竟不在中华!

 

读《统计自然语言处理》——形式语言与自动机【未看完】

这一章让我回想起本科学习过的编译原理,虽然当时学的不走心,但多少还是有些印象,回头可以继续看一下,都往干净了!!!! 【“推出”符号在这里显示为à,可能是编码问题】 1、  图(本质上是二元关系)...
  • xiaopihaierletian
  • xiaopihaierletian
  • 2017年03月31日 14:59
  • 407

教程 | 理解和实现自然语言处理终极指南(附Python代码)

 教程 | 理解和实现自然语言处理终极指南(附Python代码) 时间 2017-02-16 14:41:39 机器之心 原文  http://www.jiqizhixin....
  • starzhou
  • starzhou
  • 2017年04月24日 16:55
  • 1414

自然语言处理学习(一)

学习了哥伦比亚大学的 一、自然语言处理基本可以分为: 自然语言理解:将自然语言文本输入计算机,计算机自己进行处理,获取有利信息。 自然语言生成:计算机生成一种与人类交流的语言。   二、在自...
  • feng2008xu
  • feng2008xu
  • 2014年09月25日 16:16
  • 932

Python与自然语言处理(三):Tensorflow基础学习

TensorFlow实现简单神经网络,并对iris花的种类进行预测
  • monkey131499
  • monkey131499
  • 2016年08月08日 21:34
  • 5028

自然语言处理基本知识小结

1.什么是NLP? 人与人、人与计算机交互中的语言问题。 能力模型,通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通...
  • qjc937044867
  • qjc937044867
  • 2016年03月04日 15:39
  • 2679

自然语言处理基本概念

本文为 http://blog.sina.com.cn/s/blog_1334cae810102wovb.html 笔记 自然语言处理常用术语 文本主要分为三种文本,自由文本、结构化文本、半结构化文本...
  • Virginia5
  • Virginia5
  • 2017年03月29日 10:24
  • 517

周扬:关于马克思主义的几个理论问题的探讨

2010-01-03 17:31 周扬:关于马克思主义的几个理论问题的探讨 关于马克思主义的几个理论问题的探讨 周扬 一、马克思主义是发展的学说   ... 二、要重视...
  • wwwgui1978
  • wwwgui1978
  • 2012年02月03日 00:39
  • 1958

关于读书的几个问题

读书,并不是穷酸秀才秀穷秀酸的时候才出来卖弄于人的。笛卡儿说:“读一切好书,就是和许多高尚的人谈话。”读书中的愉悦和享受,体现在精神、境界上的享受和在慎思方面的提升,自不是网络冲浪中能够获得的。“书中...
  • sxhelijian
  • sxhelijian
  • 2013年09月30日 08:19
  • 4213

推荐:深入浅出的自然语言处理书单!

DT时代,大数据、BI和人工智能均是十分火热的产业趋势,而自然语言处理作为人工智能领域和计算机科学领域中的一个重要方向,也随之火热了一把,得到不少IT人士的极大研究兴趣。现在,大圣众包威客平台推介若干...
  • dashenghuahua
  • dashenghuahua
  • 2017年01月06日 11:22
  • 1201

Yii2片段缓存详解

概述 这里只是简单讲一下用法,如果想更详细的了解,去看 官方手册 比较好。 片段缓存指的是缓存页面内容中的某个片段。例如,一个页面显示了逐年销售额的摘要表格, 可以把表格缓存下来,以消除每次请求都...
  • u010010725
  • u010010725
  • 2016年08月11日 09:44
  • 448
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:关于自然语言处理的几个片段
举报原因:
原因补充:

(最多只允许输入30个字)