今年,随着chatGPT的发布火爆之后,我试用了一下。这两天,对国内开源的一些类似系统也尝试。chatGLM,本地部署了一下。说真的,没有用起来,电脑太老,配置太差,速度太慢,等不及,关了。
然后,搜索了自然语言处理,特别是分词,看了一些算法的介绍材料,下载了两个算法实现。
我一直以为,人的学习,是基于学会规则,不断运用规则来面对世界而练习巩固完善。计算机也要象人学习一样,从规则入手。现在的基于统计的,规则字典匹配的,似乎都不是人类学习的方法。学得少,解决的问题大,这种模型还没有建立起来。
这两天,我在网上学习了中文语法。中文语法真是丰富,如何表述这些语法?我有引用正则表达式的想法。
当前的学习模型,建立在算法和标注的数据的学习。标注。在临近下班的时候,我突然闪现一个想法:在标注语料的时候,我们应当教计算机更多。
于是在微信朋友圈发布了:它很聪明,但我们教得太少。
我的想法是:
1中文搞个字典。现成的字典,用计算机的方法来表述一下。规范一下表示方法。
2语料标注。在词性标注的基础上,增加句子类型的标准,词语在句子中的主谓宾定状补等组成的标注。结合5W2H标注句义的标注。
3形成语法的算法。将中文的语法构建成判定、生成等算法。
我们需要找语文老师来配合我们。
我相信这样的算法写下来,肯定能够实现少学而大用。我现在的电脑应当就可以运行一个模型了。
记忆系统和知识系统,将不是问题。只是让程序去搜索一下相关材料而已。
有人尝试实现吗?