利用python获取一部电视剧中的相关关键字台词的内容

本文链接：https://blog.csdn.net/m0_47074531/article/details/136254943

本文介绍了如何使用Python和pysrt库从电视剧字幕或剧本文件中提取包含特定关键词的台词，包括下载字幕、读取文件、关键词搜索、内容筛选和结果展示等步骤，并提供了一个示例脚本供读者参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需要使用Python的文本处理库和在线API。以下是基本步骤：

1. 获取电视剧字幕或剧本:

你可以从网上下载电视剧的字幕文件（通常是.srt格式）或剧本。
如果你无法直接获取，可以考虑使用屏幕抓取技术（如Selenium）从视频流中提取字幕。
2. 读取字幕或剧本文件:

使用Python的内置文件读取功能或第三方库（如pysrt）来读取字幕文件。
对于剧本文件，通常可以使用普通的文本读取方法。
3.关键词提取:

使用Python的字符串处理功能（如str.find()或正则表达式）来搜索和提取包含关键字的台词。
你可以定义一个关键词列表，并在文本中查找这些关键词。
4. 内容分析和筛选:

对提取的台词进行进一步的分析，以确定是否真正符合你的需求。
你可以根据台词的长度、出现频率或其他标准来筛选结果。
5.保存或展示结果:

将提取的关键词台词保存到文件或数据库中，或直接在控制台上展示。
如果需要，你也可以对结果进行一些统计和可视化。
以下是一个简单的示例代码，展示了如何从字幕文件中提取包含关键字的台词：

import pysrt  
  
def extract_keywords_from_subtitles(subtitle_file, keywords):  
    subtitles = pysrt.open(subtitle_file)  
    extracted_lines = []  
  
    for sub in subtitles:  
        for keyword in keywords:  
            if keyword in sub.text:  
                extracted_lines.append(sub.text)  
                break  # 如果一个台词包含多个关键字，只提取一次  
  
    return extracted_lines

示例使用

keywords = ["关键词1", "关键词2", "关键词3"]  
subtitle_file = "path/to/your/subtitles.srt"  
extracted_lines = extract_keywords_from_subtitles(subtitle_file, keywords)  
  
for line in extracted_lines:  
    print(line)

请注意，这个示例使用了pysrt库来读取字幕文件。如果你还没有安装这个库，你可以使用pip进行安装：

pip install pysrt

脚本示例

使用以下Python脚本来运行上面的示例代码：

import pysrt  
  
def extract_keywords_from_subtitles(subtitle_file, keywords):  
    """  
    从字幕文件中提取包含指定关键字的台词。  
      
    :param subtitle_file: 字幕文件的路径  
    :param keywords: 要提取的关键字列表  
    :return: 包含关键字的台词列表  
    """  
    subtitles = pysrt.open(subtitle_file)  
    extracted_lines = []  
  
    for sub in subtitles:  
        for keyword in keywords:  
            if keyword in sub.text:  
                extracted_lines.append(sub.text)  
                break  # 如果一个台词包含多个关键字，只提取一次  
  
    return extracted_lines  
  
# 示例使用  
if __name__ == "__main__":  
    # 定义你想要搜索的关键字  
    keywords = ["俺也一样", "意大利炮", "过江"]  # 你可以替换成你想要的关键字  
    # 指定字幕文件的路径  
    subtitle_file = "path/to/your/subtitles.srt"  # 请替换成你的字幕文件实际路径  
      
    # 提取包含关键字的台词  
    extracted_lines = extract_keywords_from_subtitles(subtitle_file, keywords)  
      
    # 打印提取到的台词  
    for line in extracted_lines:  
        print(line)