自制Python3版NLP汉语自然语言处理原理与实践
从零开始的智障生活
新人博客,欢迎提问,指教。
展开
-
第三章 词汇与分词技术
文章目录本章讲解汉语自然语言处理的第一项核心技术:中文(或汉语)词汇自动切分,也称为中文分词技术。从1979年,中国就开始进行及其可读语料库的建设,专业的高校和研究机构纷纷建立大规模中文语料库。这个阶段历经十多年之久,由于语料库建设之初,许多工作都要从零开始,分词任务都由专业人员手工完成。这是一项繁重而枯燥的工作。即便如此,受到人为主观因素的影响,人工粉刺的标准并不统一,语料精度也不高。虽然是国...原创 2019-04-27 13:34:07 · 1671 阅读 · 0 评论 -
第一章 中文语言的机器处理
1. 搭建NLTK环境1. 操作系统:win10 x642. Python开发环境:Python-3.73. 安装常用Python应用程序安装数学运算包。pip install numpyconda install scipy安装mysql数据库工具包 。安装Tornado网络包 。安装NLTK开发环境。(1)安装NLTK语言开发系统。pip inst...原创 2019-04-10 14:08:56 · 4796 阅读 · 1 评论 -
自制Python3版《NLP汉语自然语言处理原理与实践》——目录
自制Python3版《NLP汉语自然语言处理原理与实践》——目录第一章 中文语言的机器处理原创 2019-04-25 01:11:57 · 416 阅读 · 0 评论