python click()打开新网页_用python看日记 | 打开方方日记的新方式

久未联系的女同学打来电话,

说这日子过不下去了,

一定要让阿威开导开导。

阿威瞄了瞄四周,

找了一个安全位置,

打了一通77分41秒的电话。

原来是为了方方,

原来不是找阿威诉衷肠,

害阿威空欢喜一场。

还不停地问:

“这个问题,你怎么看?”

“那个问题,你怎么看?”

能怎么看?

阿威可不想开撕,

那就用python看看吧。

de2fe1f345dfd3de3b947d7a61d1a9c6.png

pycharm:现阶段写python最好用的IDE

7a0771673e0e4dbb535e4bf4f577ce34.png

用python看日记,拢共分5步

Step1:先找到目标文件

财新网上有方方日记专栏,恰好阿威是财新的付费用户。 先把文本拿下来, 尴尬的是,财新网还有反爬机制,对会话有限制。 阿威只能一口气先把网页转存到文本文件, 再清洗网页格式的文本文件。 需要用到的第三方库: requests库:将网页转换成文本 官网: http://docs.python-requests.org 中文文档: https://requests.readthedocs.io/zh_CN/latest/

Step2:清洗文本数据,保存为日记文本文件,同时生存一个合集文件备用

粗略看了一下网页文件格式, 既有阳历日期开头,也有农历日期开头的, 还有几篇不用日期开头的,手工补上日期。 输出60篇日记文本,并自动命名。 需要用到的标准库: os:路径生成、文件整理 time:日期计算 re:正则表达式,过滤特定文本串 需要用到的第三方库: borax:用于计算并生成农历日期 官网: https://github.com/kinegratii/borax

Step3:将日记合集进行分词处理

中文分词比英文分词困难太多, 人家英文天生就已经用空格帮你分好了, 只需一个内置的split函数就轻松搞定。 好在python是胶水语言, 常用的轮子早就有人给你造好了, 不需要你重新再去造轮子。 需要用到的第三方库: jieba库:用于中文分词 官网:https://github.com/fxsjy/jieba 9e5fa390adea6b83856edbbddb85f593.png 过滤掉单字和标点符号后排在前30位的词组

ffa6495e8498d032c1cece6c9e71b4f8.png

过滤掉单字及双字词后排在前30位的词组

Step4:将分词结果输出为词云

尽管也有第三方库, 但词云相对有些复杂。 参数太多,需慢慢琢磨。 支持两种方式, 一种是直接给文本,适合英文。 一种是给词频,适合中文。 需要用到的第三方库: wordcloud库:用于生成词云 官网:https://github.com/amueller/word_cloud 比较细致的教程:https://www.cnblogs.com/aby321/p/10445235.html 9e6358cd41d09d0e3018cd987c0f170e.png 过滤掉单字和标点符号后的词云图

cd7231fbc74ebefaeebaf4da73c16e44.png

过滤单字词和双字词后的词云图

Step5:尝试做文本的情感倾向分析

对方方日记的看法总是两极, 我们看看AI怎么看。 调用百度的NLP接口, 分析每一句的情感倾向, 然后再合成整篇日记的情感倾向。 百度这个东西还不是很成熟,限制很多, 比如:只能处理GBK编码的汉字,文档不全等 需要用到的第三方库: baidu-aip库:用于自然语言的情感倾向分析 官网: https://github.com/Baidu-AIP

      官方文档:https://cloud.baidu.com/doc/NLP/s/xk6z52ac2

377e01e68d9e2c5882565e31174c89b8.png

60篇日记属积极类型的概率分布及置信度

cf55d9c218628687ee5b26f92daaffd4.png

怎么解读用python看到的结果?

把结果传给了女同学,

女同学说看不懂,

让阿威别装技术控。

直接说,

直接说,

直接说!

你怎么看?

你怎么看?

你怎么看!

为什么要有女同学?

我们先学学python,

把问题具象化。

把问题缩小一点。

比如,左右之争就不是我们所能左右的。

从词云来看,

方方关注的是两点,

一个是武汉人,

另一个是反思,

更具体一点就是武汉人的反思。

很多不是武汉人,替武汉人做了很多反思。

他们在反思的同时,反感武汉人的反思。

如果我们的反思,

就是骂骂武汉人,

就是骂骂美国人,

那我们不会进步。

下一次,各种毒,

我们可能仍然挡不住。

从情感倾向来看,

平均积极倾向概率为0.470953,

确实不如大家习惯中的、想要的那么积极,

但也不是想象中的那么消极。

那还有英文书呀?

你怎么看?

说得大家都很喜欢读书似的,

说得美国就没人懂中文似的,

说得跟真的似的。

你一定是支持方方的?

对不对?

支持和不支持,

真的那么重要吗?

中间没有别的选项吗?

方方日记,

在那段日子,

给了阿威很大的慰藉。

尽管阿威已取关了发表日记的那个公号,

专注于学习python,

但仍心存感激。

66a3c68e04c808e54ceb4e51ab7284fa.png 人生苦短 我用python
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值