Gephi人物社交关系_Jieba提取人名_春晚人物关系洞察

在内容媒体舆论分析时,常用到分词等工具,当热点事件涉及到众多人物时,可以采用Gephi做社交关系分析,作为舆论分析的一个切入点。
摘要由CSDN通过智能技术生成

Gephi人物社交关系_Jieba提取人名_春晚人物关系洞察

一、引言

在内容媒体舆论分析时,常用到分词等工具,当热点事件涉及到众多人物时,可以采用Gephi做社交关系分析,作为舆论分析的一个切入点。

二、方法概述

爬虫等方式获取新闻;
Python分词,提取出人名,以及人物之间的共词矩阵;
Gephi做社群分析,可视化,分析中心性、社区结构、影响力等等。

三、详细步骤(附代码)

1. 数据获取

不是本文的重点,此处不赘述,可以通过新闻网站爬虫获取。最终获得的数据格式为:序号(无实际含义)、文章标题、文章链接、文章正文内容,其中序号和正文是必须的

index content
0 ……巴拉巴拉……
2. 数据处理(分词、提取人名、生成共词矩阵)

有两种途经,Python开发或者第三方软件。

Python开发
a 读取数据
import pandas as pd
data = pd.read_csv('E:/chunwandata.txt',sep='\t')
data.head()
b jieba提取人名
import jieba
import jieba.posseg as pseg
##有的人名如迪丽热巴jieba识别不出来,所以我将无法识别的人名作为自定义词库加进去了
jieba.load_userdict("E:/Data/userdict.txt") 
##jieba会误认某些词汇为人名,需要自定义一个黑名单
nameblacklist=['明星','才华','小宝','祝福','熊猫','温馨','明白','华为','高清','高潮','美的','华丽','常客','阳光','辟谣','高达','唐装','美轮美奂','智慧','牛群']
def extract_names(txt):
    # 使用jieba对文本进行分词,同时获取词性
    names=[]
    words_with_flags = pseg.cut(t
  • 39
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值