零、所有项目通用的:
http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预测器)
http://blog.csdn.net/mmc2015/article/details/46852755(加载自己的原始数据)
(适合文本分类问题的 整个语料库加载)
http://blog.csdn.net/mmc2015/article/details/46906409(5. 加载内置公用的数据)
(常见的很多公共数据集的加载,5. Dataset loading utilities)
http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢))
(一张图告诉你,你的问题选什么estimator好,再也不用试了)
http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预测新数据、评价分类器)
http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调参)
一、文本分类用到的:
http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件中提取特征(tf、idf))
(CountVectorizer、TfidfTransformer)
http://blog.csdn.net/mmc2015/article/details/46866537(