关于对大模型数据json文件进行规则处理实现过滤掉违禁词，多余标点符号，乱码等

最新推荐文章于 2024-05-15 20:33:46 发布

看看你的吧

最新推荐文章于 2024-05-15 20:33:46 发布

阅读量447

点赞数

文章标签： json 大数据 python pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45622250/article/details/131620373

版权

import pandas as pd
# 加载数据集
df = pd.read_json('data/people.json')
# 定义违禁词列表 自己定义
banned_words = ['16']
# 过滤数据集
for index, row in df.iterrows():
    question = row['name']          #数据集里面的input output
    answer = row['age']
    # 检查问题和答案是否包含违禁词
    if any(word in question for word in banned_words) or any(word in answer for word in banned_words):
        # 删除包含违禁词的数据
        df.drop(index, inplace=True)
#实现去除乱码和标点符号
def content_filter(text):
    # 去除乱码
    text = re.sub(r'[^\x00-\x7F]+', '', text)
    # 去除多余的标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    return text

# 打印过滤后的数据集
df['name'] = df['name'].apply(content_filter)
df['age'] = df['age'].apply(content_filter)

#将数据保存到json文件里
df.to_json('afterfixeson',orient='records')
print(df)

将原始json文件中按照规则进行去除

去除之后的数据为：

完成规则过滤

看看你的吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于对大模型数据json文件进行规则处理实现过滤掉违禁词，多余标点符号，乱码等

对json数据进行数据预处理
复制链接

扫一扫

看看你的吧 CSDN认证博客专家 CSDN认证企业博客

码龄5年

29: 原创

128万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

379: 积分

47: 粉丝

70: 获赞

11: 评论

110: 收藏

私信

关注

热门文章

最新评论

spark上提交Python任务的方法，以及配置submit.sh 脚本参数
镇长1998: 瞎写，那-- class参数是用于java和Scala程序的，你这写的，驴头不对马尾。自己去看 spark-submit的参数说明吧。
Python中的一些格式转换 txt json xlsx等格式转换方式
CSDN-Ada助手: 非常感谢您分享这篇关于Python中格式转换的博客！看到您已经写了19篇博客，真是令人称赞！持续创作对于提高自己的技能和知识水平有着重要的作用。关于下一步的创作建议，我谨提供一些建议供您参考。首先，您可以考虑拓展一下博客的主题范围，如Python中其他常用的数据处理技巧或者应用场景。此外，您还可以分享一些实际案例，让读者更好地理解如何在实际项目中应用这些格式转换技术。最后，如果可能的话，您可以考虑引入一些图表或示例代码，以帮助读者更好地理解您的内容。请记住，这仅仅是一些建议，希望对您有所帮助。期待您继续创作出更多精彩的博客！祝您一切顺利！
try --except 方法判断数据是否符合JSON格式
CSDN-Ada助手: 恭喜您写了第20篇博客！非常高兴看到您持续创作并分享有关"try --except"方法来判断数据是否符合JSON格式的技巧。这个主题对于我们这些对数据处理感兴趣的人来说非常有用。在下一步的创作中，我想提出一个建议。您可以考虑探索更多关于异常处理的技巧，例如如何处理不同类型的异常以及如何优化代码以更好地适应不同的数据。这将有助于提高您读者的技术水平，并且您的经验和见解将为他们带来更多价值。再次恭喜您取得的进展，期待看到更多精彩的博客文章！请继续保持创作，并分享您的知识和经验。谦虚的态度总是令人钦佩的，您的努力一定会得到更多读者的认可和喜爱。加油！
关于对大模型数据json文件进行规则处理实现过滤掉违禁词，多余标点符号，乱码等
CSDN-Ada助手: 恭喜您撰写第10篇博客！您的标题“关于对大模型数据json文件进行规则处理实现过滤掉违禁词，多余标点符号，乱码等”听起来非常有趣和有实际应用价值。您的技术处理方法似乎能够帮助我们过滤掉不必要的内容，提高数据的质量。在您的下一篇博客中，我希望能看到更多关于如何优化处理大模型数据json文件的方法。也许您可以分享一些实际案例或者更深入的技术细节，这将使读者更容易理解和应用您的方法。无论是关于性能优化、代码实现技巧还是相关工具的介绍，都可以让读者们更好地理解和运用您的技术。再次恭喜您的持续创作，期待您未来更多精彩的博客！
国内常见镜像源
CSDN-Ada助手: 恭喜用户撰写第18篇博客！标题中提及国内常见镜像源是一个非常实用的话题，对广大读者来说肯定会很有帮助。您在博客中分享了哪些具体的常见镜像源呢？我认为下一步，您可以考虑对这些镜像源的优缺点进行更深入的探讨，或者分享一些使用这些镜像源的实际经验和技巧。期待阅读您未来更多的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。