![75518003f08bbecd06136e28ce169d10.png](https://i-blog.csdnimg.cn/blog_migrate/e2e6a544dde0ec5c53c42f29cded1db5.jpeg)
短文本关键短语/关键词提取
背景:短文本具有内容简短、表达灵活、主题风格各异等特点,从中提取关键短语具有挑战性
1 类目 标签 关键短语 关键词的区别
类目(category) 是预先定义好的,具有树形的层次结构,抽象的概括某类事物,强调共性,往往具有排他性。
标签tag 粒度比类目更加细,用于刻画一小批群体的特征,不一定有层次结构,一条内容往往可以有多个标签。
关键词(keyword)更侧重于某一具体内容本身表达的意义,往往是内容的主题。
关键短语(keyphrase)是关键词组成的短语,短语的语义更加丰富,能够更加全面的概括内容主题。
![d65c2d77ad14fc216433276f32503c60.png](https://i-blog.csdnimg.cn/blog_migrate/b55223b72dcec1f17e5959f29efc48cb.png)
2 可能的特征
特征选取往往对提取效果起到关键的作用。
统计特征 tf idf
位置特征 首次出现的位置、是否在title中、词的跨度(第一次和最后一次出现的间隔宽度)
语言特征 词性、停用词、形态特征(后缀、首字母缩写)、词干特征、偏旁、语义