正则表达式-将一段话隔开为两个list，其中一个为标签list，一个为文本list，然后组成json

有梦想的鱼

已于 2024-07-30 19:22:26 修改

阅读量26

点赞数

文章标签： list windows linux

于 2024-07-30 19:20:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38148600/article/details/140804410

版权

import re

def extract_labels_and_contents(text):
    # 构建正则表达式模式
    pattern = re.compile(r'(\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\])(.*?)(?=\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\]|\Z)', re.DOTALL)


    # 查找所有匹配的标签和内容
    matches = pattern.findall(text)

    # 将标签和中间内容分别存储在两个列表中
    found_labels = []
    contents = []

    for match in matches:
        found_labels.append(match[0])
        contents.append(match[1].strip())

#     print("Found Labels:", found_labels)
#     print("Contents:", contents)
    combined_list = [{"text": text, "speaker": "sys", "strategy": label} for label, text in zip(found_labels, contents)]
    
    return combined_list

# 示例文本
text = """
[SUP]您好，给您一个温暖的抱抱。[ANA]您这样是对的。
"""

# 调用函数并打印结果
result = extract_labels_and_contents(text)
print(result)

重点在于正则表达式

pattern = re.compile(r'(\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\])(.*?)(?=\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\]|\Z)', re.DOTALL)

在这个改进的正则表达式 (\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\])(.*?)(?=\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\]|\Z) 中：

(\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\]) 匹配标签。
(.*?) 非贪婪地匹配标签后的内容。
(?=\[FAC\]|\[ADV\]|\[SUP\]|\[RES\]|\[ANA\]|\[EXP\]|\Z) 确保匹配到下一个标签开始的位置或文本末尾，\Z表示文本末尾。

这种方式可以确保匹配所有标签及其对应的内容。

有梦想的鱼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
正则表达式-将一段话隔开为两个list，其中一个为标签list，一个为文本list，然后组成json

这种方式可以确保匹配所有标签及其对应的内容。在这个改进的正则表达式。
复制链接

扫一扫

有梦想的鱼 CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

1万+: 周排名

2万+: 总排名

15万+: 访问

: 等级

1079: 积分

1532: 粉丝

134: 获赞

80: 评论

339: 收藏

私信

关注

热门文章

分类专栏

基本神经网络 5篇
transform 3篇
pytorch 27篇
论文阅读 2篇
论文 5篇
工作记录 3篇
gpu 6篇
install 2篇
nlp面试 1篇
机器学习 3篇
word2vec
tensorflow 5篇
cuda 1篇
cmd 1篇
系统实现需求分析 1篇
大学编程 4篇

最新评论

huggingface镜像站
有梦想的鱼: import re import json def extract_labels_and_texts(txt): # 标签列表 labels = ["[FAC]", "[ADV]", "[SUP]", "[RES]", "[ANA]", "[EXP]"] # 构建正则表达式，确保匹配整个标签，包括中括号内的内容 pattern = "|".join(re.escape(label) for label in labels) # 使用正则表达式匹配标签和对应的文本 matches = re.findall(f"({pattern})(.*)", txt) # 清理匹配结果，移除多余的换行符和空格，并将结果分别存入两个列表 labels_list = [match[0] for match in matches] texts_list = [match[1].strip() for match in matches] # 创建一个新的列表，其中每个元素都是一个包含标签和文本的字典 combined_list = [{"text": text, "speaker": "sys", "strategy": label} for label, text in zip(labels_list, texts_list)] return combined_list # 测试函数 text = """ #[SUP]您好，给您一个温暖的抱抱。 #[ANA]虽然是家里安排的相亲，您也没有反对， #[ADV]2《如果您想和这位男性相处一段时间却又因为觉得别扭而苦恼的话，可以尝试转移一下注意力， """ extract_labels_and_texts(text)
huggingface镜像站
有梦想的鱼: import re # 给定的文本 text = """ #[SUP]您好，给您一个温暖的抱抱。 #[ANA]虽然是家里安排的相亲，您也没有反对， #[ADV]2《如果您想和这位男性相处一段时间却又因为觉得别扭而苦恼的话，可以尝试转移一下注意力， """ # 标签列表 labels = ["[FAC]", "[ADV]", "[SUP]", "[RES]", "[ANA]", "[EXP]"] # 构建正则表达式，确保匹配整个标签，包括中括号内的内容 pattern = "|".join(re.escape(label) for label in labels) # 使用正则表达式匹配标签和对应的文本 matches = re.findall(f"({pattern})(.*)", text) # 清理匹配结果，移除多余的换行符和空格，并将结果分别存入两个列表 labels_list = [match[0] for match in matches] texts_list = [match[1].strip() for match in matches] # 打印结果 print("标签列表:", labels_list) print("文本列表:", texts_list) import json # 创建一个新的列表，其中每个元素都是一个包含标签和文本的字典 combined_list = [{"text": text, "speaker":"sys", "strategy": label} for label, text in zip(labels_list, texts_list)] # # 将这个列表转换为JSON格式的字符串 # combined_json = json.dumps(combined_list, ensure_ascii=False, indent=4) combined_json
huggingface镜像站
有梦想的鱼: sudo chmod -R 777 /home/ldx/LLaMA-Factory
huggingface镜像站
有梦想的鱼: /media/ldx/陈启的机械硬盘/models/Llama3-8B-Chinese-Chat1
huggingface镜像站
有梦想的鱼: huggingface-cli download --resume-download THUDM/glm-4-9b-chat --local-dir /media/ldx/陈启的机械硬盘/models/autodl-tmp/models/glm4-9b

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。