python小白对于德语评论进行情感分析的苦逼心路历程

仅以此篇纪念我的研究生论文研究过程,将不定时的更改,补充

1.爬取数据

本人python 小白一个,短时间学会爬虫实属不易,因此寻了一个比较蠢的办法就是用现成的爬取器。由于我需要翻墙去德国的亚马逊去爬取评论,需要自行准备好梯子。有梯子的一个好处就是可以利用google安装以下两个扩展应用

第一个比较简单,可以自行百度,仅需选中需爬取的评论区的大框架,它会自动将所有内容分类爬取,并可以选择用xlsx或者csv输出 但是后续筛选工作会加重,因为它没有办法选择哪些部分不爬取

第二个在此说一下思路,这个是需要在开发者平台去运作的,普通电脑按下F12即可运作,

 

从此处开始新建需要爬取的网页等配置信息 

网页链接部分有较多讲究,若网页的翻页具有规律,例如********page1,*******page2等,可以以*****page1-2这种方式链接,也可以点击下方create 进行网页添加翻页较乱的网页

先选择大框,类型选element,点进element,再进行配置,之后在进行解释

2.语言分类

亚马逊的评论不仅仅只有德语,还包含了很多法语,意大利语,西班牙语等等,不同于中英文本质上的不同,也不同于中日韩泰之间,西方语言所使用的字母,语法都是较为接近的,且其unicode使用范围也十分接近。如果仅需英语,或许可以使用正则去 匹配a-A z-Z。

英德的区分十分困难,需要借助python中的langid包才可以进行区分。

但langid包对于英语识别的正确率远不及德语的高,如果可以还是建议使用fasttext等深度学习的工具去对语言进行区分(本人没学会,因此只用langid)
以下是langid使用 方法(真的很白目,换个文件路径就好)

import langid


fileopen = open(r'C:\Users\17438\Desktop\2.txt', 'r', encoding='utf-8', errors='ignore')
lines = fileopen.readlines()

with open(r'C:\Users\17438\Desktop\3.txt', 'w+', encoding='utf-8', errors='ignore') as f:
    def lang_by_langid(para_text):
        ret = langid.classify(para_text)
        print(f"langid:{ret}")
        f.write(str(ret))
        return ret[0]

    for item in lines:
        print(f"text:{item}")
        tmp = lang_by_langid(item)
        f.write(str(item))

 为本人改进过的版本,输出新的文档,且可以在pycharm中看到结果,知道运行进展。

为啥使用的是text而不是xlsx~( ̄▽ ̄)~*?因为本人电脑上用的是wps,而不是excel。如果不转换为txt格式,德语将会有很多乱码,text自带utf格式,经本人测试过无数,utf-8最适合德语的运行。

运行所得出的结果会是这个样子的,

<
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值