Python带你进入现代人的绝境

最新推荐文章于 2022-08-12 00:13:19 发布

洞口麻雀

最新推荐文章于 2022-08-12 00:13:19 发布

阅读量1.1k

点赞数

文章标签： python 自然语言处理机器学习数据分析数据挖掘

本文链接：https://blog.csdn.net/tianqi_guo/article/details/105414958

版权

人在每个时代所碰到相同的问题是什么？就是绝境。

翻越了生存和饥饿的绝境之后，人们喜欢追求新的东西，听最新的音乐，看最新的杂志，买最新的手机，粉时尚明星，追美妆直播，失去看完一部长篇的耐心，陷入标题新闻和短视频中，不用任何人监视，热衷于向所有人分享自己和周围人的生活，人人监视别人，人人被人窥探。

人变成一个网络机器，慢慢的有点不知道梦想变成什么，生活走着走着就走丢了。

现代人的绝境，是无聊。

01 数据

根据2019年6月的CNNIC数据，手机网民经常使用的各类App(Application，移动互联应用）中，短视频使用时长占比同比增长达到40.2%，12点、21点分别出现两次使用小高峰，符合大部分网民闲暇娱乐时间规律。

数据来源：《第44次 | 中国互联网发展状况统计报告》

在短视频用户最常使用的App中，抖音和快手占据前两位。一二线城市用户的独占率最低，他们接收的信息纷繁复杂，经常使用的App较为多样；三四线城市消费者则对抖音和快手更青睐，且粘性颇高。

就短视频关注的内容来说，男性用户喜欢游戏和搞笑类，女性则更倾向于时尚美妆、美食、萌娃等内容。年轻观众更追求时尚潮流，喜欢游戏、宠物、小哥哥和小姐姐。

对微博热搜、知乎热榜的内容进行爬取，收集2020.3.25-2020.3.27日72小时内共15000条文本数据，对文本中出现频率较高的“关键词”予以视觉化的展现，形成“关键词云图”。

from wordcloud import WordCloud,ImageColorGenerator
from matplotlib import pyplot as plt

# 绘制词云图
content = str(df["content_cutted"] )

wc = WordCloud(font_path="msyh.ttc",
               background_color='white',
               mode="RGBA",
               max_font_size=40,
               max_words=2000,
               stopwords=stop,
               random_state=120,
               margin=2).generate(content)

plt.figure(figsize=(10,6))
plt.axis('off')
plt.imshow(wc)

02 模型

使用隐含狄利克雷分布（LatentDirichlet Allocation,以下简称LDA）模型，探索热点内容的主题分布。

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

n_features = 5000 # 仅从文档中抽取5000个最重要的特征关键词
tf_vectorizer = CountVectorizer(strip_accents='unicode',
                                max_features=n_features,
                                stop_words=stop,
                                max_df=0.4,
                                min_df=15)
tf = tf_vectorizer.fit_transform(df.content_cutted)

# 主旨话题建模
n_topics = 6
lda = LatentDirichletAllocation(n_topics=n_topics, max_iter=50,
                                learning_method='online',
                                learning_offset=50.,
                                random_state=0)
lda.fit(tf)

众所周知，LDA推断的主题并不总是容易被人类解释，为了提高主题的可解释性，引入相关性对主题中的词组进行排序，定义超参数 λ，以期学习词组与主题之间相关性的最佳调优值：

其中，当λ= 1，词组按照其特定主题概率的递减顺序排列；λ= 0，词组按照其Lift值的递减顺序排列。

数据来源：《LDAvis: A method for visualizing and interpreting topics》

根据测试结果，λ的“最优”值约为0.6，其正确识别主题的概率估计为70%，而对于接近0和1的λ值，正确答案的估计比例分别接近53%和63%。即认为这是根据相关性对词组进行排序的证据，当λ< 1时，可提高主题的可解释性。

对微博热搜、知乎热榜的文本数据进行LDA主旨话题建模，设置λ的值为0.6，主旨话题数为6，并进行可视化展示。

import pyLDAvis
import pyLDAvis.sklearn


# 显示每个主题里面的若干个关键词
def print_top_words(model, feture_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feture_names[i] 
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))
    print()
n_top_words = 10
# 依次输出每个主题的关键词表
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

# 可视化主旨话题
data = pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
pyLDAvis.show(data)

可视化LDA模型结果发现，热点内容的主旨话题分布集中在：时政新闻、社会舆论、娱乐明星、游戏直播、手机发布、综艺影视这六个主题。

03 洞察

即刻满足的兴奋感，支撑着人毫不厌倦的从一个热点追到下一个热点，乐此不疲。越来越幼龄化的内容，强化了人想要即刻满足的本能。

科技为生活带来便捷性的同时也绑架了人，不知真假的热点新闻、突破下限的猎奇视频、花样百出的综艺娱乐、不断提速的外卖快递……所有这些，让我们习惯了需求即刻就能得到回应，并沉沦于此。

任何时间和地点都离不开手机，不断刷新屏幕上的内容，满足自己无法控制的好奇心。我们需要小丑点亮无聊的生活，其实挑逗的终归是自己的孤独，沉迷于虚拟世界带来的即刻满足感中，沦为屏幕的奴隶。

陈独秀先生在《新青年》的创刊词中，对敏于自觉、勇于奋斗之青年提出的六义中第一条就是：自主的而非奴隶的。

20世纪，整个中国革命，包括世界革命，核心点就是要唤醒奴隶，让奴隶起来，挣脱枷锁。21世纪的今天，国歌《义勇军进行曲》依然具有时代先进性：起来，不愿做奴隶的人们。

对于个人来说，你的绝境在哪？要把这个绝境翻越过去。

欢迎关注公众号【洞口麻雀】。和阿雀一起，翻越绝境。

洞口麻雀

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python带你进入现代人的绝境

人在每个时代所碰到相同的问题是什么？就是绝境。翻越了生存和饥饿的绝境之后，人们喜欢追求新的东西，听最新的音乐，看最新的杂志，买最新的手机，粉时尚明星，追美妆直播，失去看完一部长篇的耐心，陷入标题新闻和短视频中，不用任何人监视，热衷于向所有人分享自己和周围人的生活，人人监视别人，人人被人窥探。人变成一个网络机器，慢慢的有点不知道梦想变成什么，生活走着走着就走丢了。现代人的绝境，是无...
复制链接

扫一扫