TfidfVectorizer in scikit-learn : ValueError: np.nan is an invalid document

最新推荐文章于 2024-01-21 10:36:11 发布

中志融一

最新推荐文章于 2024-01-21 10:36:11 发布

阅读量8.7k

点赞数 17

分类专栏：语义识别数据挖掘

本文链接：https://blog.csdn.net/ningzhimeng/article/details/80953916

版权

语义识别同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

数据挖掘

3 篇文章 0 订阅

订阅专栏

我使用scikit-learn中的TfidfVectorizer学习从文本数据中提取一些特征。我有一个带标志的CSV文件（可以是+1或-1）和一个评论（文本）。我将这些数据导入DataFrame，以便运行Vectorizer。
代码如下：

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

df = pd.read_csv("train_new.csv",
             names = ['Score', 'Review'], sep=',')

# x = df['Review'] == np.nan
#
# print x.to_csv(path='FindNaN.csv', sep=',', na_rep = 'string', index=True)
#
# print df.isnull().values.any()

v = TfidfVectorizer(decode_error='replace', encoding='utf-8')
x = v.fit_transform(df['Review'])

报错：

ValueError: np.nan is an invalid document, expected byte or unicode string.

解决方案：

x = v.fit_transform(df['Review'].values.astype('U'))  ## Even astype(str) would work

我们从说明文档中可以看到：

fit_transform(raw_documents, y=None) 

Parameters: raw_documents : iterable 
an iterable which yields either str, unicode or file objects

中志融一

关注

17
点赞
踩
14

收藏

觉得还不错? 一键收藏
5
评论
TfidfVectorizer in scikit-learn : ValueError: np.nan is an invalid document

我使用scikit-learn中的TfidfVectorizer学习从文本数据中提取一些特征。我有一个带标志的CSV文件（可以是+1或-1）和一个评论（文本）。我将这些数据导入DataFrame，以便运行Vectorizer。代码如下：import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text ...
复制链接

扫一扫