python小白对于德语评论进行情感分析的苦逼心路历程

本文链接：https://blog.csdn.net/Armyenemy/article/details/127099207

仅以此篇纪念我的研究生论文研究过程，将不定时的更改，补充

1.爬取数据

本人python 小白一个，短时间学会爬虫实属不易，因此寻了一个比较蠢的办法就是用现成的爬取器。由于我需要翻墙去德国的亚马逊去爬取评论，需要自行准备好梯子。有梯子的一个好处就是可以利用google安装以下两个扩展应用

第一个比较简单，可以自行百度，仅需选中需爬取的评论区的大框架，它会自动将所有内容分类爬取，并可以选择用xlsx或者csv输出但是后续筛选工作会加重，因为它没有办法选择哪些部分不爬取

第二个在此说一下思路，这个是需要在开发者平台去运作的，普通电脑按下F12即可运作，

从此处开始新建需要爬取的网页等配置信息

网页链接部分有较多讲究，若网页的翻页具有规律，例如********page1，*******page2等，可以以*****page1-2这种方式链接，也可以点击下方create 进行网页添加翻页较乱的网页

先选择大框，类型选element，点进element，再进行配置，之后在进行解释

2.语言分类

亚马逊的评论不仅仅只有德语，还包含了很多法语，意大利语，西班牙语等等，不同于中英文本质上的不同，也不同于中日韩泰之间，西方语言所使用的字母，语法都是较为接近的，且其unicode使用范围也十分接近。如果仅需英语，或许可以使用正则去匹配a-A z-Z。

英德的区分十分困难，需要借助python中的langid包才可以进行区分。

但langid包对于英语识别的正确率远不及德语的高，如果可以还是建议使用fasttext等深度学习的工具去对语言进行区分（本人没学会，因此只用langid）
以下是langid使用方法（真的很白目，换个文件路径就好）

import langid


fileopen = open(r'C:\Users\17438\Desktop\2.txt', 'r', encoding='utf-8', errors='ignore')
lines = fileopen.readlines()

with open(r'C:\Users\17438\Desktop\3.txt', 'w+', encoding='utf-8', errors='ignore') as f:
    def lang_by_langid(para_text):
        ret = langid.classify(para_text)
        print(f"langid:{ret}")
        f.write(str(ret))
        return ret[0]

    for item in lines:
        print(f"text:{item}")
        tmp = lang_by_langid(item)
        f.write(str(item))

为本人改进过的版本，输出新的文档，且可以在pycharm中看到结果，知道运行进展。

为啥使用的是text而不是xlsx~(￣▽￣)~*？因为本人电脑上用的是wps，而不是excel。如果不转换为txt格式，德语将会有很多乱码，text自带utf格式，经本人测试过无数，utf-8最适合德语的运行。

运行所得出的结果会是这个样子的，