自然语言处理NLP
文章平均质量分 69
小小颖儿
这个作者很懒,什么都没留下…
展开
-
自然语言处理入门——中文分词原理及分词工具介绍
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。1.中文分词原理介绍1.1 中文分词概述中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的...原创 2018-07-17 10:52:08 · 924 阅读 · 0 评论 -
NLTK-- 相关软件安装以及操作 1
第一章 语言处理与 Python一 安装NLTK环境1.1 windows 7 32的安装#也可以在CSDN里搜索下载,我为了怕以后找不到了,都有上传过1. 安装Python2.7(稳定版本,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy);2. 安装NumPy:(http://www.lfd.uci.edu/~gohlke/p...原创 2018-09-18 16:18:46 · 499 阅读 · 1 评论 -
NLTK实例操作 1.1
#相关安装指令安装python2.7/python3.6pip install Numpypip install MatPlotLibpip install NLTKpip install NetworkXpython -m nltk.downloader all安装Prover9安装MSVCP71.DLLnltk指令代码import nltk ...原创 2018-09-18 22:31:40 · 861 阅读 · 0 评论 -
NLTK实例操作1.2
直接上代码:1、实例测试1# -*- coding: UTF-8 -*-# !/usr/python/bin# Filename:NltkTest42'''一些关于文本的统计信息的测试'''from __future__ import divisionimport nltkfrom nltk.book import *import timeimport datetime...原创 2018-09-19 18:24:22 · 610 阅读 · 0 评论 -
获得文本语料和词汇资源 2
import nltkfrom nltk.corpus import *'''1、古腾堡语料库'''gutenberg.fileids() #所有古腾堡语料库中的文本emma = nltk.corpus.gutenberg.words('austen-emma.txt')#num_chars 变量计数了空白字符#row()对文件的内容不进行任何语言处理#sents()...原创 2018-09-19 19:04:42 · 355 阅读 · 0 评论