kaggle
少游223
语音识别算法
展开
-
NLP中kaggle比赛实例《每日新闻对股票市场的预测》基础版
TF-IDF+SVM是文本分类问题的基准线from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer import pandas as pd import numpy as pd from sklearn.svm import SVC from sklearn.metrics import roc_auc...原创 2018-03-21 13:56:39 · 3900 阅读 · 3 评论 -
NLP中kaggle比赛实例《每日新闻对股票市场的预测》进阶版
这篇比基础版加了什么呢?基础版是直接将文本放入TF-IDF,虽然简单方便,但还是不够严谨,可以对数据进行进一步处理,如先小写化,将文本分成晓得tokens,接着删减如the,a,that等停止词,用正则化删除数字。用这些手段将数据进行处理。from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer impo...原创 2018-03-21 14:23:03 · 3470 阅读 · 3 评论