Lexical Complexity Analyzer (LCA) 单词复杂性分析的数据预处理操作

LCA是个求解单词复杂性的一个程序,它要求数据输入必须以 word_postag的形式。
tree-tagger实在是太难用了,简直是上古时代的产物。
作为新世纪的好青年,我们应该找一些新的方法。
我们通过上文的spacy自然语言处理工具包去做单词的词性标注,然后写出到lem文件。
原始数据文件大致长成这个样子,tsv文件列间用\t分隔即可。
在这里插入图片描述

import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np
import spacy
spacy.__version__
'3.0.5'

词性标注函数

def essay_to_pos(d):
    text = (d)
    doc = nlp(text)
    series_doc = l
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值