NLP文本清理时常用的python小函数

1 # coding = utf-8
2 import re

1. 清理杂七杂八字符

 1 '''
 2 [a-zA-Z0-9] 字母数字
 3 [\u4e00-\u9fa5] 汉字的utf-8 code范围
 4 '''
 5 # 保留字母、数字、汉字和标点符号(),.!?":
 6 def remove_others(s):    
 7     return re.sub(r'[^a-zA-Z0-9\u4e00-\u9fa5(),.!?":]', ' ', s)
 8 
 9 # 删除多余的空白(including spaces, tabs, line breaks)'''
10 def remove_whitespaces(s):
11     return re.sub(r'\s{2,}', ' ', s)

2. 社交媒体文本中清除 @其他人

 1 def remove_atpeople(s):
 2     '''删除文本中@与其后面第一个空格之间的内容'''
 3     s = re.sub(r'@', ' @', s)
 4     ls = s.split()
 5     nls = []
 6     for t in ls:
 7         if t[0] == '@':
 8             continue
 9         else:
10             nls.append(t) 
11 
12     return ' '.join(nls)

 

转载于:https://www.cnblogs.com/wxiaoli/p/11600004.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我不确定您的问题是什么意思。如果您是要移除字符串中的非中文字符,可以使用正则表达式来实现。例如,以下代码可以移除字符串中的非中文字符: ```python import re text = "Hello, 世界!" text = re.sub("[^\u4e00-\u9fa5]+", "", text) print(text) # 输出:世界 ``` 如果您有任何其他问题或者需要更详细的解答,请随向我提出。 ### 回答2: Python 是一种程序设计语言,它具有简单易学、功能强大、跨平台等特点。Python 的设计宗旨之一就是提供一种可读性强的编程语言,使程序员能够用更少的代码完成更多的工作。除此之外,Python 还支持许多编程范式,如面向对象、函数式、命令式等,使得开发者可以选择最适合自己需求的编程方式。 Python 有丰富的第三方库,这些库提供了大量的功能模块,方便开发者在各个领域使用 Python 进行开发。例如,Numpy 是一个科学计算库,提供了大量高效的数值计算函数;Pandas 是一个数据分析库,用于处理和分析结构化数据;Matplotlib 是一个可视化库,可用于绘制统计图表等等。 由于 Python 的易学性和功能强大,许多人使用 Python 进行各种任务。例如,数据分析师可以使用 Pandas 对数据进行清理和处理,然后使用 Matplotlib 绘制出相关的统计图表;机器学习工程师可以使用 Scikit-learn 进行模型训练和预测;Web 开发人员可以使用 Django 或者 Flask 构建网站等等。 最重要的是,Python 语言的可读性很高,其简洁而优雅的语法使开发者能够快速上手并编写高质量的代码。因此,Python 在教育领域也有广泛的应用,许多学校将其作为计算机编程的入门语言。 总之,Python 作为一种编程语言,具有许多优势和应用领域。无论是处理数据、进行科学计算还是开发网站,Python 都是一种非常适用的选择。 ### 回答3: Python 是一种强大且流行的编程语言,其设计初衷是为了提高代码的可读性和简化开发过程。虽然 Python 可以处理世界上几乎所有的编程任务,但它同样能处理中文,具有与其他编程语言相比独特的优势。 首先,Python 具有广泛的中文支持。无论是在字符串处理、文件读写还是用户界面设计方面,Python 都提供了丰富的中文模块和库。这使得开发人员可以轻松地处理中文数据、文本和其他应用程序要求,使程序更加适应中文环境。 其次,Python 的语法简洁明了,使中文编程变得更加容易。Python 语言以其简洁、可读的语法而闻名,这使得编程变得更加直观、易于理解。对于那些以中文作为母语的开发者来说,使用 Python 编写代码更加自然和顺畅,因为代码与他们的思维方式更保持一致。 此外,Python 具有强大的中文自然语言处理(NLP)功能。Python 提供了许多开源的 NLP 库,如 NLTK、jieba 等,这些库有效地解决了中文文本处理的问题。无论是文本分析、情感分析还是机器翻译,Python 可以用简洁而高效的方式处理中文文本数据。 总之,Python 在中文编程方面具有许多优势。无论是语言支持、简洁的语法还是强大的中文自然语言处理功能,Python 都为开发者提供了一个使程序适应中文环境的高效、灵活和友好的工具。无论是初学者还是专业开发者,使用 Python 编写中文代码都是一种简单而愉悦的体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值