NLTK文本整理和清洗示例代码

最新推荐文章于 2024-07-09 17:20:03 发布

光英的记忆

最新推荐文章于 2024-07-09 17:20:03 发布

阅读量1.3k

点赞数 1

分类专栏： NLTK

本文链接：https://blog.csdn.net/qq_29678299/article/details/90487926

版权

本文详细介绍了如何利用Python的自然语言处理库NLTK对文本数据进行整理和清洗，包括分词、去除停用词、词干提取等步骤，旨在提升文本分析的效果和效率。

摘要由CSDN通过智能技术生成

# csv load
import nltk


import csv
import json
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.tokenize import regexp_tokenize
from nltk.tokenize import blankline_tokenize
from nltk.tokenize import wordpunct_tokenize
from nltk.stem import PorterStemmer  # import Porter stemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
import urllib.request as urllib
from bs4 import BeautifulSoup
from nltk.metrics import edit_distance

# nltk.download('punkt')
nltk.download()
# csv load
with open('600000.csv', 'r') as f:
    reader = csv.reader(f, delimiter=',', quotechar='"')
#     for line in reader :
#        print(line[1] )  # assuming the second field is the raw sting

    rows = [row for row in reader]
    print(rows)

# json load
jsonfile = open('example.json

最低0.47元/天解锁文章

光英的记忆

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLTK文本整理和清洗示例代码

# csv loadimport nltkimport csvimport jsonfrom nltk.tokenize import sent_tokenizefrom nltk.tokenize import word_tokenizefrom nltk.tokenize import regexp_tokenizefrom nltk.tokenize import bla...
复制链接

扫一扫