大体流程:(无监督方法)
- 每个 Sentence 之间视为一个 Webpage 的关系图 ——》然后转化为向量的形式
- 为了计算句子间的关系,就先统一数据结构 -------》句子转向量
EX : 欧式定理 and 余弦相似度 算句子间相似度
句子向量间的相关性矩阵 ----> Similarity Matrix
3.Graph 造图 ----> 类似于 Link 和Matrix
4.Sentence Rankings 按照 Pagerank 和句子间相似度,选句子
转换成向量:
EX :
Tf--Idf : 根据频次和重要性 转化向量
Length = word number (但容易稀疏)
Word2vec:非稀疏,低维---》分布表示法
Charcter—based(字符方式):最小单元为字符,而得单词
或者借用LSTM和Bert 模型
计算两两间的相似度
(然后)
构建成 Matrix 的有向图
再通过 Pagerank 把每个图节点进行排序即可 如:p(s1)>p(s2)>p(s3)>p(s4)