2020.7.19 用spacy给德语txt文档lemmatize并将print结果写入csv

最新推荐文章于 2024-03-05 15:03:43 发布

ICHhassPROGRAMM

最新推荐文章于 2024-03-05 15:03:43 发布

阅读量632

点赞数

分类专栏： MA的奋斗史文章标签： python csv

本文链接：https://blog.csdn.net/ICHhassPROGRAMM/article/details/107454764

版权

本文仅作为个人语料处理日志，若有错误请各位看官轻喷。欢迎交流o(￣▽￣)ブ

今天又是坐在电脑前和 python 从 dusk 肝到 dawn 的一天，主要解决的问题是把德语原文中的动词用spacy的lemmatizer还原到动词原形（infinitive）。

主要有以下三个步骤：

1. python读取txt，也就是原文中的所有动词

首先import需要用到的包，并调用lemmatizer

import spacy #用于进行nlp处理
import pandas as pd #用于csv读取（然鹅我失败了
import csv #用于读取、写入csv

nlp = spacy.load('de_core_news_sm')

由于之前已经将语料处理成一列，并写入csv文件中，于是我开始了作死的尝试

#csv文件“0101-1.csv”和这个py文件在同一个文件夹，所以可以直接输入文件名进行调用，verbs是我给这个csv文件的代号，index_col表示读取某一列，这列的表头在我的csv里刚好是Verb，所以给python的命令相当于“读取0101-1这个csv文件里的Verb这列”
verbs = pd.read_csv('0101-1.csv', index_col= 'Verb', encoding='utf-8')
#可以试着print出来看看，读取成功了没
print (verbs)

走到这里就没办法继续分析了，编程白痴的我怀疑是pandas读取csv文件的格式不支持接下去的分析，那么就直接换成读取txt文档吧，也就多一个把数据复制进txt文档的步骤而已。

txt文档准备就绪以后就可以直接读取了：

#r后的引号里填写txt文档的路径，这一步只是

最低0.47元/天解锁文章

ICHhassPROGRAMM

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020.7.19 用spacy给德语txt文档lemmatize并将print结果写入csv

本文仅作为个人语料处理日志，若有错误请各位看官轻喷。欢迎交流o(￣▽￣)ブ今天又是坐在电脑前和 python 从 dusk 肝到 dawn 的一天，主要解决的问题是把德语原文中的动词用spacy的lemmatizer还原到动词原形（infinitive）。主要有以下三个步骤：1. python读取txt，也就是原文中的所有动词2. lemmatization，对原文动词进行处理3. 将还原好的动词重新写入文档1. python读取txt，也就是原文中的所有动词首先import需要用到的包，并调用.
复制链接

扫一扫

专栏目录