Python
实现小说的文本分析(剧情
/
主角)
现在网上有数以亿的小说
.
怎样去给人推荐喜爱小说
,
那么我们就要对其喜爱的小说就行分析
,
贴上对
应的标签
,
如爱情
\
伦理
\
恐怖
\
推理
\
校园
\
穿越等等
,
然后找到标签相似度高的的小说就行推荐
.
看似整
个过程很简单
,
其实得要完成相当麻烦计算
.
首先是标签的定义
,
其次是相似度或者说匹配度的计算
.
今
天我们主要讨论标签的定义,小说的标签很多很多(需要分析大量的小说就行定义)
,判断小说属于
哪种标签也得大量计算和定义。
例如我们怎么判断一部小说为爱情小说,
这肯定对小说的文本就行分
析,
如果小说中出现大量的
“浪漫、
吻、
玫瑰花、
亲嘴、
爱、
爱你”
等词,
那么可以说明是爱情小说。
同理,如果小说文中出现大量【棺材、尸体、鬼魂、死】等词汇,那么可以将其定义为恐怖小说。当
然一部小说可能有多种定义标签,即可能即是【爱情】又是【伦理】还有可能是【恐怖】
(通过这些
明确的标签就可以简单的对小说量化分析,实现推荐的算法了)
。
一部小说有少则几万,多则几百万字,总不能一部部小说看完在定义吧。
当然不用,完全可以通过技术对文本就行分词然后在分析,简单说就是词频分析。如下图所示
图片一