关于对大模型数据json文件进行规则处理实现过滤掉违禁词,多余标点符号,乱码等

import pandas as pd
# 加载数据集
df = pd.read_json('data/people.json')
# 定义违禁词列表 自己定义
banned_words = ['16']
# 过滤数据集
for index, row in df.iterrows():
    question = row['name']          #数据集里面的input output
    answer = row['age']
    # 检查问题和答案是否包含违禁词
    if any(word in question for word in banned_words) or any(word in answer for word in banned_words):
        # 删除包含违禁词的数据
        df.drop(index, inplace=True)
#实现去除乱码和标点符号
def content_filter(text):
    # 去除乱码
    text = re.sub(r'[^\x00-\x7F]+', '', text)
    # 去除多余的标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    return text

# 打印过滤后的数据集
df['name'] = df['name'].apply(content_filter)
df['age'] = df['age'].apply(content_filter)

#将数据保存到json文件里
df.to_json('afterfixeson',orient='records')
print(df)

将原始json文件中按照规则进行去除

 去除之后的数据为:

 完成规则过滤

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要利用数据集river.json文件可视化实现主题河流图,可以使用Python中的Matplotlib库和Seaborn库。以下是一个简单的示例代码: ```python import json import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 从json文件中读取数据 with open('river.json') as f: data = json.load(f) # 将数据转换为pandas DataFrame df = pd.DataFrame(data) # 创建一个空的DataFrame,用于存储每个关键的计数 counts = pd.DataFrame(columns=df.columns) # 遍历每个关键,计算每个年份的计数 for keyword in df['keywords'].explode().unique(): year_counts = df[df['keywords'].apply(lambda x: keyword in x)].groupby('year').count().reset_index() year_counts['keywords'] = keyword counts = counts.append(year_counts) # 将计数数据转换为主题河流图需要的格式 counts = counts.pivot(index='year', columns='keywords', values='count').fillna(0) counts = counts.apply(lambda x: x.cumsum(), axis=1) # 绘制主题河流图 plt.figure(figsize=(12, 6)) sns.heatmap(counts, cmap='Blues') plt.xlabel('Keywords') plt.ylabel('Year') plt.title('Topic River') # 对图形进行分析 # 可以通过观察主题河流图,分析哪些关键在不同年份中出现频率较高,哪些关键之间存在相似性等等。 ``` 在这个示例代码中,首先读取了数据文件river.json中的数据,并将其转换为pandas DataFrame。然后,对于每个关键,计算了在每个年份的计数,并将结果存储在一个新的DataFrame中。接下来,将计数数据转换为主题河流图需要的格式,并绘制了主题河流图。最后,可以通过观察主题河流图,进行对图形的分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值