数据处理-清洗

幼稚的星星

于 2023-05-09 21:31:17 发布

阅读量88

点赞数

文章标签： python 机器学习开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41937620/article/details/130589265

版权

---分词--

使用Python清洗文本数据_小北的北的博客-CSDN博客

readandfenci_test1

# # In case of import errors
# ! pip install nltk
# ! pip install textblob
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import re
import nltk
import string
from nltk.corpus import stopwords
# # In case of any corpus are missing 
# download all-nltk
#nltk.download()
#df = pd.read_csv('train.csv')
df =  "America like South Africa is a traumatised sick country - in different ways of course - but still messed up."
stop_words = stopwords.words("english")
wordnet = WordNetLemmatizer()
def text_preproc(x):
  x = x.lower()
  x = ' '.join([word for word in x.split(' ') if word not in stop_words])
  x = x.encode('ascii', 'ignore').decode()
  x = re.sub(r'https*\S+', ' ', x)
  x = re.sub(r'@\S+', ' ', x)
  x = re.sub(r'#\S+', ' ', x)
  x = re.sub(r'\'\w+', '', x)
  x = re.sub('[%s]' % re.escape(string.punctuation), ' ', x)
  x = re.sub(r'\w*\d+\w*', '', x)
  x = re.sub(r'\s{2,}', ' ', x)
  return x
res = text_preproc(text)
res
###df['clean_text'] = df.text.apply(text_preproc)##apply有多个返回值

输出里面有换行--替换操作---

text = text.replace('\n', ' ')

anaconda 下安装nltk - 知乎

如何安装NLTK（MacBook, Anaconda) - 知乎

幼稚的星星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

幼稚的星星 CSDN认证博客专家 CSDN认证企业博客

码龄7年

20: 原创

22万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

253: 积分

336: 粉丝

51: 获赞

13: 评论

160: 收藏

私信

关注

分类专栏

最新评论

[学习]同态加密的参数-SEAL v2.3.0
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618874955。
BERTopic学习记录
普通网友: 你好，我想问下，sentence-transformers/all-MiniLM-L6-v2下载到本地后应该放在哪个文件夹下呢
BERTopic学习记录
CSDN-Ada助手: 恭喜您写了第18篇博客！《BERTopic学习记录》的主题非常有趣和有价值。您对BERTopic的学习记录无疑为读者提供了宝贵的参考，同时也展现了您对这一主题的深入理解。在您的下一步创作中，或许可以探索一下BERTopic在实际应用中的案例研究，或者从不同角度对BERTopic的优缺点进行分析，以便为读者提供更全面的视角。期待您继续分享更多有关自然语言处理和BERTopic的精彩内容！
学习安装anaconda记录
幼稚的星星: https://blog.csdn.net/qq_52906076/article/details/127856979 jupyter的主题
Searchable Encryption for Healthcare Clouds:A Survey 翻译
幼稚的星星: 没有我也是学习 github上应该是有的就是跑不跑的通没试过

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。