舆情相似度计算
舆情的属性有以下:
domain 舆情发生领域
regions 舆情地域(可将全国划分至5个区域,或十个以内)
opinionType 舆情类型
mediaType 发布言论中各媒体类别所占的比例
mediaGrade 发布言论中各媒体类别所占的比例
需要将前三个属性转换成数值型以便计算,以domain为例:
domain类型 |
编码(xyz) |
社会 |
001 |
伦理 |
010 |
教育 |
100 |
这种编码的好处是各个不同值之间的距离相等,相同值之间的距离为0.
如 社会与伦理的距离:2(按位相减,再取平方和);
社会与教育的距离:2
社会与社会的距离:0
舆情A示例: