2020.7.19 用spacy给德语txt文档lemmatize并将print结果写入csv

本文仅作为个人语料处理日志,若有错误请各位看官轻喷。欢迎交流o( ̄▽ ̄)ブ

今天又是坐在电脑前和 python 从 dusk 肝到 dawn 的一天,主要解决的问题是把德语原文中的动词用spacy的lemmatizer还原到动词原形(infinitive)。

1. python读取txt,也就是原文中的所有动词

首先import需要用到的包,并调用lemmatizer

import spacy #用于进行nlp处理
import pandas as pd #用于csv读取(然鹅我失败了
import csv #用于读取、写入csv

nlp = spacy.load('de_core_news_sm')

由于之前已经将语料处理成一列,并写入csv文件中,于是我开始了作死的尝试

#csv文件“0101-1.csv”和这个py文件在同一个文件夹,所以可以直接输入文件名进行调用,verbs是我给这个csv文件的代号,index_col表示读取某一列,这列的表头在我的csv里刚好是Verb,所以给python的命令相当于“读取0101-1这个csv文件里的Verb这列”
verbs = pd.read_csv('0101-1.csv', index_col= 'Verb', encoding='utf-8')
#可以试着print出来看看,读取成功了没
print (verbs)

走到这里就没办法继续分析了,编程白痴的我怀疑是pandas读取csv文件的格式不支持接下去的分析,那么就直接换成读取txt文档吧,也就多一个把数据复制进txt文档的步骤而已。

txt文档准备就绪以后就可以直接读取了:

#r后的引号里填写txt文档的路径,这一步只是
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值