一、库的导入
import pandas as pd
import jieba.analyse # 导入jieba关键词提取模块
pandas库:进行csv文件读写工作
jieba.analyse:关键词提取模块
二、读取CSV文件
文件的获取见新闻标题清洗01-爬取新闻标题
input_file = 'news_data.csv' # 替换为你的CSV文件路径
output_file = 'keywords_extracted.csv' # 输出结果保存的文件路径
df = pd.read_csv(input_file, encoding='utf-8-sig')
关于pandas库的用法详见 库学习02-Pandas库
三、 定义提取关键词函数
def extract_keywords(text, topK=3):
# 提取关键词,返回前topK个关键词
keywords = jieba.ana