我正在运行一个逻辑回归,一个tf-idf正在一个文本列上运行。这是我在逻辑回归中使用的唯一一个列。我怎样才能确保这方面的参数尽可能地得到优化?
我希望能够通过一系列的步骤,这将最终允许我说,我的逻辑回归分类器运行以及它可能。from sklearn import metrics,preprocessing,cross_validation
from sklearn.feature_extraction.text import TfidfVectorizer
import sklearn.linear_model as lm
import pandas as p
loadData = lambda f: np.genfromtxt(open(f, 'r'), delimiter=' ')
print "loading data.."
traindata = list(np.array(p.read_table('train.tsv'))[:, 2])
testdata = list(np.array(p.read_table('test.tsv'))[:, 2])
y = np.array(p.read_table('train.tsv'))[:, -1]
tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode',
analyzer='word', token_pattern=r'\w{1,}',
ngram_range=(1, 2), use_idf=1, smooth_idf=1,