肖战被抵制?Python爬虫揭秘关于肖战粉丝的人群画像

前一阵子,由于肖战的“227事件”微博和朋友圈都被刷屏,起因在与肖战的粉丝发现在AO3作品库平台收录关于肖战的同人作品,认为该部作品影响了肖战的形象,遂向有关部门举报,最终告知知名同人网站A03(Archive of our own)作品库无法被访问。

这也对爱好同人作品的读者与作者都造成了不可逆转的伤害。随即,他们联合其他路人便组成227大团结,共同抵制肖战及其粉丝,一时间与肖战紧密联系的品牌商家纷纷撤换其代言人与品牌形象大使。

小编并不是肖战的粉丝,对其出演的作品看的也不多,这次就从爬虫以及数据可视化的角度(数据来源是微博上肖战的评论粉丝)来为大家呈现肖战粉丝的人群画像。

爬虫逻辑分成三步:

01

采集肖战的所有微博

首先获取明星发的所有的微博ID,在有了这些ID之后,便可以拼接成了微博评论的第一页的URL

另外在翻页的操作时,微博评论的下一页链接的参数通常在本页的末尾,所以在每次爬取时,也要记得抓取下一页链接的重要参数

02

采集肖战微博底下的所有评论粉丝ID

由于时间有限,小编就没有做转发与点赞粉丝ID获取的开发,但是原理类似。评论粉丝的ID获取相对容易,在xpath的指引之下,

03

爬取粉丝的微博主页,并进行数据清洗

用户基本信息页面的链接通常为: “https://weibo.com/用户id/info”,所以我们只要获取用户的id就可以拿到他的公开基本信息

当然每个用户的设置不尽相同,一般来说,公开信息中包括,所在地、性别、生日以及标签等等。

粉丝的人群画像

01

粉丝的地域分布

从肖战粉丝的地域分布来看,广东省、江苏、四川以及浙江省这四个省份是其粉丝最为集中的四个省份,小编将粉丝的地域分布投射到完整的地图上,我们可以发现的是中部也有几个省份,比如湖北、湖南两省以及河南,也有不少粉丝喜爱着肖战。

02

粉丝的年龄分布与星座

从粉丝的年龄分布来看,大多数的粉丝年龄都集中在20岁以下的00后,以及20-25岁的90后的女性,而在30岁以上的粉丝群体则占到了极少数,

抛开年龄,我们看星座,天秤座的粉丝是最多的占到了15%,而天蝎座与射手座的粉丝数量位居其次,接近有9%的比重。不同的年龄阶段以及不同的星座,对应着不同的性格特征与喜好,或许商家品牌方在做广告以及市场营销的时候可以针对自己的目标人群精准推销以提升产品的销量

03

粉丝的标签

从粉丝自己选择属于自己的标签来看,她们爱美食,是一个典型的吃货;她们热爱旅游,想要去看一下外面的世界;她们或许也比较的,空余的时间会选择宅在家里,听听歌,看看电影与动漫;她们中的大多数都是00后甚至是90后的学生,喜欢自由与无拘无束的生活。

从肖战的“227”事件当中,我们能够看出的是整个圈子当中存在的畸形文化,粉丝在追星过程当中,对粉的人与事都倾注了太多的情感他们希望自己的想法与观点能够被他人所接受与认同,所以在情绪高涨之时,难免会有过激的语言与举止。同时在互联网的海量信息之下,年轻又不谙世事的粉丝又很难做到理性的分析与判断

但是,处于这个万物联网时代下的圈层之中,因为某种情感投入和热爱而聚集到一起的,喜欢参与又渴望被认可的,希望别人鸦雀无声的,又何止是这些追逐明星的狂热粉丝呢?

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,请回复“知识星球”喜欢文章,点个在看
<think>好的,用户想用Python绘制肖战画像。首先,我需要了解用户的具体需求。肖战画像可能指的是数据可视化,比如粉丝分析,或者是实际的图像生成。根据提供的引用,用户可能是指数据可视化,如粉丝行为、社交网络分析等。引用[1]提到用Python爬虫和数据可视化呈现“227事件”后的肖战粉丝数据,所以这可能是指生成图表,而不是实际的人物肖像画。 接下来,我需要确定用户的技术水平。用户可能已经了解Python基础,但可能需要具体的代码示例和步骤。考虑到用户请求示例代码,应该提供简单易懂的示例,使用常见库如Matplotlib或Seaborn。 然后,考虑数据来源。绘制数据画像通常需要先获取数据,比如通过爬虫收集微博、社交媒体上的相关信息。但直接提供爬虫代码可能有法律和伦理问题,所以需要提醒用户遵守相关协议,并建议使用公开数据集或模拟数据。 此外,引用[2]提到用户画像和算法推荐,这可能涉及数据分析、特征提取、聚类等步骤。因此,代码示例应包括数据处理和可视化的部分,比如绘制柱状图、词云等。 需要确保代码正确且符合Python语法,使用正确的库安装指令。同时,要避免涉及隐私或版权问题,强调数据的合法获取。 最后,生成相关问题,帮助用户深入理解,比如优化数据采集、使用机器学习构建画像等。确保回答结构清晰,分步骤说明,并添加引用标识。</think>### 使用Python生成肖战相关数据画像的步骤与示例 根据引用内容,绘制“肖战画像”通常指通过数据爬虫和可视化技术分析其粉丝行为、社交网络特征等[^1][^2]。以下是基于公开数据的实现思路和代码示例: --- ### 1. 数据采集(模拟示例) *注意:实际应用中需遵守平台协议,此处使用模拟数据* ```python import pandas as pd import numpy as np # 模拟粉丝数据 data = { '年龄': np.random.randint(15, 40, 100), '性别': np.random.choice(['女', '男', '其他'], 100, p=[0.7, 0.25, 0.05]), '活跃时段': np.random.choice(['0-6点', '6-12点', '12-18点', '18-24点'], 100), '互动频率': np.random.poisson(3, 100) } df = pd.DataFrame(data) ``` --- ### 2. 基础数据可视化 ```python import matplotlib.pyplot as plt # 年龄分布直方图 plt.figure(figsize=(10,6)) plt.hist(df['年龄'], bins=15, edgecolor='black', alpha=0.7) plt.title('粉丝年龄分布') plt.xlabel('年龄') plt.ylabel('人数') plt.show() ``` --- ### 3. 高级特征分析 ```python from wordcloud import WordCloud # 生成词云(模拟评论关键词) text = " ".join(['支持', '正能量', '作品', '加油', '代言']*20 + ['反对', '争议']*5) wordcloud = WordCloud(font_path='msyh.ttc').generate(text) plt.imshow(wordcloud) plt.axis("off") plt.show() ``` --- ### 4. 多维特征交叉分析 ```python import seaborn as sns # 活跃时段与性别的交叉分析 sns.countplot(x='活跃时段', hue='性别', data=df, palette='Set2') plt.xticks(rotation=45) plt.title('不同性别粉丝活跃时段分布') plt.show() ``` ---
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值