背景交代:爬虫为适应电子商务飞速发展,通过数据挖掘技术对客户评论进行分析,进而改善服务、提高核心竞争力。爬虫taobao某一品牌杀虫剂下所有评论,区分好评和差评,提取特征词,用以区分新的评论
挖掘目标:分析科林虫控用户的感情倾向;从评论文本中挖掘出产品的优势和不足;提炼出卖点
方法流程:通过对文本进行基础的数据预处理、中文分词、停用词过滤后,使用Python工具对数据进行建模和分析,实现对数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期得到有价值的内在内容
项目管理:带领4为组员,为每位项目组组员分配任务,并规定完成时间,保证项目按时完成。
数据分析:项目【用户评论情感分析】,利用情感分析模型,优化20%费效。项目链接
原理
比如这么一句话:“宝贝真好用,推荐,赞。”
判断情感词
要判断一句话是积极的还是消极的,最简单最基础的方法就是找出句子里面的情感词,积极的情感词比如:赞,好用,推荐等,消极情感词比如:差,烂,坏,没用等。出现一个积极或者消极词就+1。
判断程度词
一般在情感词的前面会出现程度词比如:“真”,“好用”和‘烂“前面都有一个程度修饰词。”超级好“就比”好“或者”还好“的情感更强。所以需要在找到情感词后往前找一下有没有程度修饰,并给不同的程度一个权值。比如”真“,”无比“,”太“就要把情感分值*4,”较“,”还算“就情感分值*2,”只算“,”仅仅“这些就*0.5了。
判断否定词
如果仅仅是出现了“好”就把其规定为正分数相加的话,出现“不”“好”就会被错误判定。所以在找到情感词的时候,需要往前找否定词。比如”不“ÿ