场景
- 在信息抽取中,词语在文章中各个位置具有不同的权重。
- 把文章简单分为前中后三部分,某词出现在前面时有较大概率是关键词,出现在其它位置时有较小概率是关键词
- 例如某【日期类】实体在结尾出现的概率较大,故该实体结尾权重较高,在开头和中间出现的词极可能是伪实体
- 通常文章信息权重排序:开头>结尾>中间
步骤
- 统计实体在文章出现的位置
- 计算位置密度
- 计算位置权重(https://blog.csdn.net/Yellow_python/article/details/104504629)
from sklearn.gaussian_process import GaussianProcessRegressor
from matplotlib import pyplot