【合并表格中的列以及数量统计】

合并表格中的列

调用库

import pandas as pd
import re

读取数据

df = pd.read_csv('C:/Users/19024/Desktop/time.csv')

定义需要合并的列

text_columns = ['title', 'content', 'comment']

合并想合并的列

for col in text_columns:
    df[col] = df[col].astype(str)
df['text'] = df[text_columns].apply(lambda row: ' '.join(row), axis=1)

进行话题的提取和数量统计

选择content列

texts = df['text']
def extract_hashtags_and_count(text):
    # 使用正则表达式匹配所有话题标签
    hashtags = re.findall(r'#[^\s]+', text)
    # 返回话题标签列表和数量
    return ' '.join(hashtags), len(hashtags)  # 直接返回合并后的话题字符串和数量
df['tags'], df['tags_count'] = zip(*df['content'].apply(extract_hashtags_and_count))
#输出带有提取话题标签和数量的DataFrame
print(df[['content', 'tags', 'tags_count']].head())
#保存新的CSV文件
df.to_csv('C:/Users/19024/Desktop/主动学习数据处理过程/total5w.csv', index=False,encoding='utf-8-sig')
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值