自然语言处理NLP
文章平均质量分 69
小小颖儿
这个作者很懒,什么都没留下…
展开
-
自然语言处理入门——中文分词原理及分词工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。 1.中文分词原理介绍 1.1 中文分词概述 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的...原创 2018-07-17 10:52:08 · 924 阅读 · 0 评论 -
NLTK-- 相关软件安装以及操作 1
第一章 语言处理与 Python 一 安装NLTK环境 1.1 windows 7 32的安装 #也可以在CSDN里搜索下载,我为了怕以后找不到了,都有上传过 1. 安装Python2.7(稳定版本,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy); 2. 安装NumPy:(http://www.lfd.uci.edu/~gohlke/p...原创 2018-09-18 16:18:46 · 499 阅读 · 1 评论 -
NLTK实例操作 1.1
#相关安装指令 安装python2.7/python3.6 pip install Numpy pip install MatPlotLib pip install NLTK pip install NetworkX python -m nltk.downloader all 安装Prover9 安装MSVCP71.DLL nltk指令代码 import nltk ...原创 2018-09-18 22:31:40 · 861 阅读 · 0 评论 -
NLTK实例操作1.2
直接上代码: 1、实例测试1 # -*- coding: UTF-8 -*- # !/usr/python/bin # Filename:NltkTest42 '''一些关于文本的统计信息的测试''' from __future__ import division import nltk from nltk.book import * import time import datetime ...原创 2018-09-19 18:24:22 · 610 阅读 · 0 评论 -
获得文本语料和词汇资源 2
import nltk from nltk.corpus import * '''1、古腾堡语料库''' gutenberg.fileids() #所有古腾堡语料库中的文本 emma = nltk.corpus.gutenberg.words('austen-emma.txt') #num_chars 变量计数了空白字符 #row()对文件的内容不进行任何语言处理 #sents()...原创 2018-09-19 19:04:42 · 355 阅读 · 0 评论