前言
今天在涉机器学习相关知识时,看到黎晨这篇文章,觉得蛮有意思的,拿来这里介绍大家.这里判定的维度越多越精准,下面判定仅供参考,仅供娱乐学习!
#判定整体思路
主要从以下几个方面可以进行粗略进行判定:
1.写作习惯
每个人写作都有一些与种不同的小习惯,这些小习惯并不会轻易就会发生改变;万分之一的例外情况不考虑!
2.词频统计
就像每次领导人开会一样,媒体或政客们都会去统计领导人讲话中出现的高频词汇,来判断领导人政策的下一步走向!
用开源的分词工具把全书分词,然后统计词频。把出现频次超过100次的词语找出来,人工去掉一些可能因为文章内容造成前后出现不一致的人名、地名;
3.分别统计章节中的词频
然后每一章按照下列表中的词频表,看这一章中出现这些词语的频次;
4.进行推断
前80回、后40回各选15回作为机器学习