Gephi人物社交关系_Jieba提取人名_春晚人物关系洞察

最新推荐文章于 2024-05-23 09:51:11 发布

weixin_39144581

最新推荐文章于 2024-05-23 09:51:11 发布

阅读量1.4k

点赞数 39

分类专栏：数据分析文章标签： python 自然语言处理中文分词

本文链接：https://blog.csdn.net/weixin_39144581/article/details/136207181

版权

在内容媒体舆论分析时，常用到分词等工具，当热点事件涉及到众多人物时，可以采用Gephi做社交关系分析，作为舆论分析的一个切入点。

摘要由CSDN通过智能技术生成

Gephi人物社交关系_Jieba提取人名_春晚人物关系洞察

一、引言

在内容媒体舆论分析时，常用到分词等工具，当热点事件涉及到众多人物时，可以采用Gephi做社交关系分析，作为舆论分析的一个切入点。

二、方法概述

爬虫等方式获取新闻；
Python分词，提取出人名，以及人物之间的共词矩阵；
Gephi做社群分析，可视化，分析中心性、社区结构、影响力等等。

三、详细步骤（附代码）

1. 数据获取

不是本文的重点，此处不赘述，可以通过新闻网站爬虫获取。最终获得的数据格式为：序号（无实际含义）、文章标题、文章链接、文章正文内容，其中序号和正文是必须的。

index	content
0	……巴拉巴拉……

2. 数据处理（分词、提取人名、生成共词矩阵）

有两种途经，Python开发或者第三方软件。

Python开发

a 读取数据

import pandas as pd
data = pd.read_csv('E:/chunwandata.txt',sep='\t')
data.head()

b jieba提取人名

import jieba
import jieba.posseg as pseg
##有的人名如迪丽热巴jieba识别不出来，所以我将无法识别的人名作为自定义词库加进去了
jieba.load_userdict("E:/Data/userdict.txt") 
##jieba会误认某些词汇为人名，需要自定义一个黑名单
nameblacklist=['明星','才华','小宝','祝福','熊猫','温馨','明白','华为','高清','高潮','美的','华丽','常客','阳光','辟谣','高达','唐装','美轮美奂','智慧','牛群']
def extract_names(txt):
    # 使用jieba对文本进行分词，同时获取词性
    names=[]
    words_with_flags = pseg.cut(t