自制Python3版NLP汉语自然语言处理原理与实践
从零开始的智障生活
新人博客,欢迎提问,指教。
展开
-
第三章 词汇与分词技术
文章目录 本章讲解汉语自然语言处理的第一项核心技术:中文(或汉语)词汇自动切分,也称为中文分词技术。从1979年,中国就开始进行及其可读语料库的建设,专业的高校和研究机构纷纷建立大规模中文语料库。这个阶段历经十多年之久,由于语料库建设之初,许多工作都要从零开始,分词任务都由专业人员手工完成。这是一项繁重而枯燥的工作。即便如此,受到人为主观因素的影响,人工粉刺的标准并不统一,语料精度也不高。虽然是国...原创 2019-04-27 13:34:07 · 1878 阅读 · 0 评论 -
第一章 中文语言的机器处理
1. 搭建NLTK环境 1. 操作系统:win10 x64 2. Python开发环境:Python-3.7 3. 安装常用Python应用程序 安装数学运算包。 pip install numpy conda install scipy 安装mysql数据库工具包 。 安装Tornado网络包 。 安装NLTK开发环境。 (1)安装NLTK语言开发系统。 pip inst...原创 2019-04-10 14:08:56 · 5219 阅读 · 1 评论 -
自制Python3版《NLP汉语自然语言处理原理与实践》——目录
自制Python3版《NLP汉语自然语言处理原理与实践》——目录 第一章 中文语言的机器处理原创 2019-04-25 01:11:57 · 443 阅读 · 0 评论