我用twitterapi for python下载了关于阿姆斯特丹的tweet,用UTF-8编写。
现在我正试图为LDA编写一个字典,使用以下代码(只是代码的一部分,但这是导致错误的部分):dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file))
这通常会给我一个错误,这取决于我选择哪个txt文件作为输入:
^{pr2}$
或者UnicodeDecodeError: 'utf8' codec can't decode byte xxxx in position 175-176: unexpected end of data
我认为原因是UTF-8中未知的字符(可能是Tweets中使用的一些笑脸),在google上尝试用以下代码替换代码:dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, errors='ignore'))
出现错误消息:dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, errors='ignore'))
TypeError: 'errors' is an invalid keyword argument for this function
或者dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, 'ignore'))
出现错误消息:dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, 'ignore'))
ValueError: mode string must begin with one of 'r', 'w', 'a' or 'U', not 'ignore'
有人有办法吗?谢谢