![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sklearn
文章平均质量分 89
九点澡堂子
这个作者很懒,什么都没留下…
展开
-
sklearn——CountVectorizer详解
参考如下链接整理: http://stackoverflow.com/questions/27488446/scikit-learn-countvectorizer http://www.itkeyword.com/doc/4813494854317445586/TfidfVectorizer-sklearn-CountVectorizer 这个链接写的很棒,主要参考他的: https:/...原创 2018-09-02 22:32:34 · 150462 阅读 · 27 评论 -
fit_transform,fit,transform区别和作用详解!!!!!!
1. 写在前面fit和transform没有任何关系,仅仅是数据处理的两个不同环节,之所以出来这么个函数名,仅仅是为了写代码方便。所以会发现transform()和fit_transform()的运行结果是一样的。注意:运行结果一模一样不代表这两个函数可以互相替换,绝对不可以!!!transform函数是一定可以替换为fit_transform函数的,fit_transform函数不能替换为...原创 2018-10-08 18:14:47 · 170198 阅读 · 16 评论 -
sklearn 神经网络MLPclassifier参数详解
class sklearn.neural_network.MLPClassifier(hidden_layer_sizes=(100, ), activation=’relu’, solver=’adam’, alpha=0.0001, batch_size=’auto’, learning_rate=’constant’, learning_rate_init=0.001, power_t=0...原创 2018-10-12 11:07:25 · 74427 阅读 · 7 评论 -
文本分类任务的基础实现(五)——机器学习部分——特征提取_Doc2vec特征+hash特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。 【写的不好,理解的不透彻,理解深刻了回来再补充,去吃公司下午茶了,嘻嘻嘻】Doc2vec特征 & hash特征1. Doc2Vec将原始数据数字化为doc2vec特征from gensim.models.doc2vec import Doc2Vec, TaggedDocument """=============...原创 2018-09-14 17:53:10 · 1703 阅读 · 1 评论 -
文本分类任务的基础实现(四)——机器学习部分——特征提取_tf-idf特征+LSA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。TF-IDF特征+LSA特征1. TF-IDF特征将原始数据数字化为tfidf特征from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(ngram_range=(1, 2), min_df=3, ...原创 2018-09-14 10:44:24 · 2316 阅读 · 1 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:线性回归
1. 线性模型_基本形式向量形式为: y^=ωTy^=ωT\hat{y} = \omega^Txxx + bbbωω\omega,bbb为需要学习的参数ωω\omega直观表达了各属性在预测中的重要性,因此线性模型有很好的解释性。2. 经典的线性模型介绍线性回归(linear regression) &am原创 2018-09-05 23:40:46 · 888 阅读 · 2 评论 -
文本分类任务的基础实现(三)——机器学习部分——特征提取_tf特征+LDA特征原理介绍
本文介绍前文用到的特征提取方法的原理介绍。tf特征+LDA特征1. tf特征(term frequency词频特征)将原始数据数字化为tf特征from sklearn.feature_extraction.text import CountVectorizervectorizer = CountVectorizer(ngram_range=(1, 2), min_df=...原创 2018-09-13 11:08:34 · 2599 阅读 · 1 评论 -
文本分类任务的基础实现(二)——机器学习部分_分类器_代码介绍
该部分用于文本分类任务的基础实现,主要包括机器学习(ml)和深度学习(dl)两大部分,机器学习部分基于sklearn/lightgbm包实现,深度学习部使用pytorch深度学习框架。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/...原创 2018-09-12 17:02:49 · 932 阅读 · 0 评论 -
文本分类任务的基础实现(一)——机器学习部分_特征工程_代码分解
本文主要介绍文本分类任务的基础实现,主要基于机器学习sklearn/lightgbm包实现。机器学习部分主要包含特征工程和分类器两大部分:特征工程部分主要针对文本分类任务的hash/lsa/lda/doc2vec特征提取/特征选择/特征组合/特征构造进行了实现;分类器部分主要有逻辑回归/SVM/随机森林/Bagging/Adaboost/GBDT /Xgboost /LightGBM等。...原创 2018-09-12 16:15:40 · 1375 阅读 · 1 评论 -
《机器学习西瓜书》学习笔记——第三章_线性模型:对数几率回归(逻辑回归)
1.经典线性模型介绍logistic回归算法描述:2. 对数几率回归(logistic regression)Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。假设函数:其中x...原创 2018-10-07 16:20:18 · 1802 阅读 · 0 评论