Pycharm nltk 实现简单的NLP功能

文章部分内容来自网络 如侵则删

环境搭建

nltk

Pycharm内部下载nltk出了好多错(各种报错),最后下载3.25版本(建议3.25),就可以了。

nltk_data

不建议在线下载,一直报错。
如果你试过网上好多的教程都没不能解决nltk_data带来的各种问题,请联系我。毕竟数据太大了。不方便分享。

几个简单功能

FreqDist(单词数量统计)

stopwords(停顿词,例如:as、the、to)

import nltk
import requests
from bs4 import BeautifulSoup

from nltk.corpus import stopwords

# 设置爬虫的url
url = 'http://php.net/'

# 设置爬虫的header
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"}

# 得到网页内容
response = requests.get(url, headers=headers)

# 设置编码
response.encoding = 'utf8'

# 转换成text内容
html = response.text

soup = BeautifulSoup(html, "html5lib")

# 抓取文本
text = soup.get_text(strip=True)

# 文本分割
tokens = text.split()

# 清洗停顿词之后的数据存放处
clean_tokens = list()

# 停顿词
sr = stopwords.words('english')


for token in tokens:
    # 去除停顿词
    if not token in sr:
        clean_tokens.append(token)

#词频统计
freq = nltk.FreqDist(clean_tokens)

# 输出单词和对应次数
for key, val in freq.items():
    print(str(key) + ':' + str(val))

# 图像展示
freq.plot(10, cumulative=False)

在这里插入图片描述

sent_tokenize(一段话拆成句子)

word_tokenize(一段话拆成单词)

from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
mytext = "Hello Adam, how are you? I hope everything is going well" \
         ". Today is a good day, see you dude."

# 一段话 转 句子
print(sent_tokenize(mytext))

# 一段话 转 单词
print(word_tokenize(mytext))

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyCharm是一款功能强大的Python集成发环境(IDE),它提供了丰富的功能和工具来帮助开发者编写、调试和运行Python代码。而NLTK(Natural Language Toolkit)是一个用于自然语言处理的Python库。 要下载NLTK并在PyCharm中使用它,可以按照以下步骤进行操作: 1. 首先,确保你已经安装了PyCharm。你可以从JetBrains官网(https://www.jetbrains.com/pycharm/)下载适用于你的操作系统的PyCharm版本,并按照安装向导进行安装。 2. 打开PyCharm,创建一个新的Python项目或打开一个已有的项目。 3. 在PyCharm的顶部菜单栏中,选择 "File" -> "Settings"(Windows/Linux)或 "PyCharm" -> "Preferences"(Mac)。 4. 在弹出的设置窗口中,选择 "Project" -> "Project Interpreter"。 5. 在右侧的项目解释器列表中,点击 "+" 按钮添加一个新的解释器。 6. 在弹出的窗口中,选择 "Existing environment" 并找到你已经安装的Python解释器路径。如果你不知道解释器路径在哪里,可以在命令行中运行 "python" 命令并输入 "import sys; print(sys.executable)" 来获取解释器路径。 7. 点击 "OK" 完成解释器的添加。 8. 在项目解释器列表中,选择刚刚添加的解释器,并点击右侧的 "Install" 按钮。 9. 在弹出的窗口中,搜索并选择 "nltk" 包,并点击 "Install Package" 完成安装。 现在,你已经成功下载并安装了NLTK库。你可以在PyCharm中使用NLTK来进行自然语言处理的相关任务了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值