细节
第一篇:
训练方法:
先计算出每个 word的beta值-important score.给定长度为k的phrase,可以算出这个phrase在class1和class2下的average effect需要用到beta的值计算。因为即使每个相同的word在不同的sentence下的beta score也不一样,所以要take average。如果对class1影响大于class2,我们给这个phrase标记为class1, otherwise 给标记为class2.
- Extract features
由于计算庞大,所以计算所有phrase的score不太现实。 作者这里用到的方法是:先给定一个阀值c=1.1,只取出连续word的score都 大于这个阀值。然后再rank一下选出来的candidate。在这里需要强调的是,根据文章前面的描述,每个phrase 已经被计算出了相对应的class label。 - Fit 一个 简单的rule-based classifier
Pattern matching: 给定一个sentence 和 一组已经是降序排列的 candidate phrase(1中),这个愚蠢的classifier会很简单的进行搜索。遍历given sentence的每一个phrase,然后做跟candidate set里的phrase 做matching。一旦找到了相对应的phrase,那么这个sentence的class就是在candidate set里被match的phrase 的class。
任务1: sentiment analysis
data:Yelp review polarity (2015). Train data: 560,000, Test data: 38,000
positive—4 or 5 stars, negative—one or two star.
Average length: 160.1
data: Stanford Sentiment Treebank. Train/dev/test, 6920/872/1821
at sentence level, so has much shorter document length.