python 小说 云_Python实现小说的文本词云分析

Python

实现小说的文本分析(剧情

/

主角)

现在网上有数以亿的小说

.

怎样去给人推荐喜爱小说

,

那么我们就要对其喜爱的小说就行分析

,

贴上对

应的标签

,

如爱情

\

伦理

\

恐怖

\

推理

\

校园

\

穿越等等

,

然后找到标签相似度高的的小说就行推荐

.

看似整

个过程很简单

,

其实得要完成相当麻烦计算

.

首先是标签的定义

,

其次是相似度或者说匹配度的计算

.

天我们主要讨论标签的定义,小说的标签很多很多(需要分析大量的小说就行定义)

,判断小说属于

哪种标签也得大量计算和定义。

例如我们怎么判断一部小说为爱情小说,

这肯定对小说的文本就行分

析,

如果小说中出现大量的

“浪漫、

吻、

玫瑰花、

亲嘴、

爱、

爱你”

等词,

那么可以说明是爱情小说。

同理,如果小说文中出现大量【棺材、尸体、鬼魂、死】等词汇,那么可以将其定义为恐怖小说。当

然一部小说可能有多种定义标签,即可能即是【爱情】又是【伦理】还有可能是【恐怖】

(通过这些

明确的标签就可以简单的对小说量化分析,实现推荐的算法了)

一部小说有少则几万,多则几百万字,总不能一部部小说看完在定义吧。

当然不用,完全可以通过技术对文本就行分词然后在分析,简单说就是词频分析。如下图所示

图片一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值