英文分词去除标点符号

题目

'''
Description: 英文分词去除标点符号
Autor: 365JHWZGo
Date: 2021-12-07 11:45:13
LastEditors: 365JHWZGo
LastEditTime: 2021-12-07 11:57:34
'''

代码实现

import spacy
import string

# 测试内容
content = "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Street's dwindling\band of ultra-cynics, are seeing green again."

# 将内容变小写
content = content.lower()

# 创建字符串映射表
remove = str.maketrans("","",string.punctuation)
print(content.translate(remove))

运行结果

wall st bears claw back into the black reuters reuters shortsellers wall streets dwindlinand of ultracynics are seeing green again

前提安装

python -m spacy info

在这里插入图片描述在这里插入图片描述

# 加载spacy模型
nlp = spacy.load("en_core_web_sm")
doc = nlp(content)
print([e.text for e in doc])

[‘wall’, ‘st’, ‘bears’, ‘claw’, ‘back’, ‘into’, ‘the’, ‘black’, ‘reuters’, ‘reuters’, ’ ', ‘shortsellers’, ‘wall’, ‘streets’, ‘dwindling\x08and’, ‘of’, ‘ultracynics’, ‘are’, ‘seeing’, ‘green’, ‘again’]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

365JHWZGo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值