我有一个关于换行符和返回字符的问题。呃,这很难解释,但我会尽力的。
我有列表形式的数据。列表的成员中有换行符,因此。
1
2
3example_list = ["I've always loved jumping
"]
为了使用nlp-though-nltk标记这个句子,我需要一个字符串。当NLTK根据我运行的一些测试和NLTK教程中的证据标记化时,它将忽略换行符和其他转义字符。
问题是,当我试图将example_list转换为字符串时,我得到了这个输出
1
2
3
4str(example_list)
'["I\'ve always loved jumping\
\
"]'
注意,所有换行符现在都变成了一个转义的正斜杠。尝试将其标记化会产生一个可怕的结果,在这里,nltk认为跳转是一个大单词,因为它认为带有两个斜杠的换行符实际上是文本。
是否有人知道任何技巧或良好的实践,以确保换行符从不存在于我的列表中,或者在转换为字符串时忽略这些字符或不"双转义"。
最后,对于如何处理换行字符以及这些字符如何与不同的数据类型交互等相关的资料,是否有人有任何建议,因为它非常令人困惑。
谢谢!
您可以使用strip()删除等。
stackoverflow.com/questions/21325212/…的可能副本?
@巴格夫劳,你为什么删除了行动党的自我回答?
@亚历克西斯,部分是我的错,我