python 文本处理保留中英文和标点符号_【NLP】Python NLTK处理原始文本

最新推荐文章于 2024-05-10 00:42:27 发布

weixin_39622891

最新推荐文章于 2024-05-10 00:42:27 发布

阅读量1.2k

点赞数

文章标签： python 文本处理保留中英文和标点符号

作者：白宁超

2016年11月8日22:45:44

摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。本文主要介绍：1)怎样编写程序访问本地和网络上的文件，从而获得无限的语言材料？2)如何把文档分割成单独的单词和标点符号，并进行文本语料上的分析？3)怎样编写程序产生格式化输出，并把结果保存在文件中？关于Python基础知识可以参看本人的【Python五篇慢慢弹】系列文章(本文原创编著，转载注明出处:Python NLTK处理原始文本)

目录

关于处理原始文本部分导入语句：

>>> from __future__ import division

>>> import nltk,re,pprint

1 从网络和硬盘访问文本(在线获取伤寒杂病论)

python网络访问程序：

>>> from __future__ import division

>>> import nltk,re,pprint

>>> from urllib.request import urlopen

>>> url=r'http://www.gutenberg.org/files/24272/24272-0.txt'

>>> raw=urlopen(url).read()

>>> raw = raw.decode('utf-8')

>>> len(raw)

70306

>>> raw[2000:2500]

运行结果：

对其中文分词：

>>> from nltk.tokenize import StanfordSegmenter

>>> segmenter = StanfordSegmenter(

path_to_jar=r"E:\tools\stanfordNLTK\jar\stanford-segmenter.jar",

path_to_slf4j=r"E:\tools\stanfordNLTK\jar\slf4j-api.jar",

path_to_sihan_corpora_dict=r"E:\tools\stanfordNLTK\jar\data/",

path_to_model=r"E:\tools\stanfordNLTK\jar\data\pku.gz",

path_to_dict=r"E:\tools\stanfordNLTK\jar\data\dict-chris6.ser.gz"

)

>>> re

最低0.47元/天解锁文章

weixin_39622891

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 文本处理保留中英文和标点符号_【NLP】Python NLTK处理原始文本

作者：白宁超2016年11月8日22:45:44摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。