1 所需软件及packages
1.1 软件/程序
- Anaconda (官网)
- (里头的)spider
- (里头的)prompt或win+R 👉 cmd
1.2 packages
- spaCy:有各种语言nlp的分析包,官网查看安装方式;我选的conda安装 - German - efficiency,官网提供的代码为 (在梯子加持下安装很顺利):
conda install -c conda-forge spacy
python -m spacy download de_core_news_sm
- csv(python自带)
- re(py自带)
spacy用于分析德语文本(词汇量更大一版)的包,安装了快一个小时也没成功,不推荐了:
de_dep_news_trf
2 完整代码
import spacy
import csv
import re
#载入spacy的德语包
nlp = spacy.load('de_core_news_sm')
#读取txt文件,文件需提前处理为utf8格式,否则有乱码
file = open(r'填文件路径', mode='r', encoding='utf-8', errors=