2020.7.17 继续肝第一个exel文件…用python的nltk模块给上百行的动词还原lemmatization

本文仅作为个人语料处理日志,若有错误请各位看官轻喷。欢迎交流o( ̄▽ ̄)ブ

感觉在最初的动名词搭配筛选就仔细分析性数格很费时间。今天就只筛选动名词短语吧。

今天纠结的点如下:

  1. 这个作者使用很多状态被动态,ich war überzeugt, wir waren berührt… 还是也收在我的动名词搭配里吧;
  2. 某些动词第二分词构成的短语在句中作为一个单独成份,不知道要不要归在内,“abgesehen davon”,可能以后还会出现“überzeugt davon/ unbewusst davon”,可以下个星期问问导师 (T_T);
  3. 开题的时候就已经考虑道主语也有可能是名词,这一开始分析就忘了;然鹅突然有个想法,是人称代词的话有必要也放在论文里一起分析么?从这个课题的研究角度而言还是有意义的,只是论文主题为动名词搭配,混入人称代词的话不知道会不会过于混乱了,这个……也问问导师吧……

    突然发觉,这个点应该可以单独拎出来做个小论文,搞定秋季的研究生论坛吧……不然要延毕了。

  4. 今天的重头戏是用python把这个表格里八百多行的各种形式的单词lemmatization,原先手动敲了几十行,结果发现还没搞定五分之一,忒坑了。

原先使用Stanford的nlp系统,但是我实在没找到我能看懂的教程,最后发现了个nltk的操作还挺简单,决定就是你了。

原地址:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值