本文仅作为个人语料处理日志,若有错误请各位看官轻喷。欢迎交流o( ̄▽ ̄)ブ
感觉在最初的动名词搭配筛选就仔细分析性数格很费时间。今天就只筛选动名词短语吧。
今天纠结的点如下:
- 这个作者使用很多状态被动态,ich war überzeugt, wir waren berührt… 还是也收在我的动名词搭配里吧;
- 某些动词第二分词构成的短语在句中作为一个单独成份,不知道要不要归在内,“abgesehen davon”,可能以后还会出现“überzeugt davon/ unbewusst davon”,可以下个星期问问导师 (T_T);
- 开题的时候就已经考虑道主语也有可能是名词,这一开始分析就忘了;然鹅突然有个想法,是人称代词的话有必要也放在论文里一起分析么?从这个课题的研究角度而言还是有意义的,只是论文主题为动名词搭配,混入人称代词的话不知道会不会过于混乱了,这个……也问问导师吧……
突然发觉,这个点应该可以单独拎出来做个小论文,搞定秋季的研究生论坛吧……不然要延毕了。
- 今天的重头戏是用python把这个表格里八百多行的各种形式的单词lemmatization,原先手动敲了几十行,结果发现还没搞定五分之一,忒坑了。
原先使用Stanford的nlp系统,但是我实在没找到我能看懂的教程,最后发现了个nltk的操作还挺简单,决定就是你了。
原地址: