也是好久没写博客了,前段时间一直在找工作,没有做什么实质性的工作。最近工作也定下了,百度流量质量控制部的反作弊算法团队,不算是百度的什么土豪团队,但是99%以上的流量收入都是要从这个团队过一遍的,团队资历实力可见一斑。
好了不吹b了,说说这个阶段要做的东西:从服务产品的评论中挖掘服务产品的特征,不理解的话举个例子:
“这饭店环境还真是不错,就是菜码有点太大了!”
很明显,加了高亮部分的文字蕴含着这个服务产品的两个特征,那么我要做的其实就是把这样的特征找出来,可以归结于数据挖掘范畴。
这个事做成了之后要做什么我先不说,因为这是我的毕业课题,透露太多了也不好。博客上我只会放处理的大致流程和遇到的问题,源码部分公开。
做学术研究嘛肯定是要有数据源的,数据源老师给提供了一个,即Yelp Dataset Challenge中的数据源:https://www.yelp.com/dataset_challenge 感兴趣的朋友可以去看看,数据质量非常高,略强于阿里天池。
(二)英文分词、赋词性
我之前做的都是中文分词,看到是英文分词给我开心坏了,空格不都打好的么。赋词性这块就不行了,因为不可能搞个词典挨个去查,我就用了nltk英文NLP处理包,这玩意以前没用过,具体代码在最后面放着,注释非常全,自己研究就行了。下面我主要说一说nltk的词性标注,这个标注还是挺奇怪的,在官网没有找到词性标注表,跟国内的北大几级标注那些又不一样,去翻了一下http://blog.csdn.net/heyongluoyao8/article/details/43731743#reply这个人的博客,做个归纳,方便以后查找。
1. CC Coordinating conjunction 连接词
2. CD Cardinal number 基数词
3. DT Determiner 限定词(如this,that,these,those,such,不定限定词:no,some,any,each,every,enough,either,neither,all,both,half,several,many,much,(a) few,(a) little,other,another.
4. EX Existential there 存在句
5. FW Foreign word 外来词
6. IN Preposition or subordinating conjunction 介词或从属连词
7. JJ Adjective 形容词或序数词
8. JJR Adjective, comparative 形容词比较级
9. JJS Adjective, superlative 形容词最高级
10. LS List item marker 列表标示
11. MD Modal 情态助动词
12. NN Noun, singular or mass 常用名词 单数形式
13. NNS Noun, plural 常用名词 复数形式
14. NNP Proper noun, singular 专有名词,单数形式
15. NNPS Proper noun, plural 专有名词,复数形式
16. PDT Predeterminer 前位限定词
17. POS Possessive ending 所有格结束词
18. PRP Personal pronoun 人称代词
19. PRP$ Possessive pronoun 所有格代名词
20. RB Adverb 副词
21. RBR Adverb, comparative 副词比较级
22. RBS Adverb, superlative 副词最高级
23. RP Particle 小品词
24. SYM Symbol 符号
25. TO to 作为介词或不定式格式
26. UH Interjection 感叹词
27. VB Verb, base form 动词基本形式
28. VBD Verb, past tense 动词过去式
29. VBG Verb, gerund or present participle 动名词和现在分词
30. VBN Verb, past participle 过去分词
31. VBP Verb, non-3rd person singular present 动词非第三人称单数
32. VBZ Verb, 3rd person singular present 动词第三人称单数
33.