sklearn
文章平均质量分 55
neu_eddata_yjzhang
neu_yjzhang@163.com
展开
-
【SKLEARN】使用CountVector类来提取词频特征,并计算其TF-IDF特征(含可执行代码)
其官方文档给出的解释如下:sklearn.feature_extraction.text.CountVectorizer — scikit-learn 1.0.1 documentation我的个人理解为:将文本文档转化为token计数矩阵。并且如果不提供先验词典,也不使用进行某种特征选择的分析器,则特征的数量将等于通过分析数据找到的词汇表大小。下面附上我的实验结果,下文用到的vocabulary_方法是生成文本与其对应特征索引的映射。通过实验结果分析我们可以看到,我们生成了一个Cou.原创 2021-12-12 20:34:17 · 1808 阅读 · 0 评论 -
【SKLEARN】classification_report函数与confusion_matrix函数
本博客采取的例子为垃圾邮件预测。预测结果(标签)为0或1.1.classification_report()函数:其官方说明文档如下:其中文翻译如下:y_true:1d类数组,或标签指示器数组/稀疏矩阵真实值(正确)目标值。y_pred:1d类似数组,或标签指示器数组/稀疏矩阵分类器返回的预测值。labels:数组形状(n_标签),默认值=无要包含在报告中的标签索引的可选列表。其返回值为根据这组样本的真实值与预测值计算出的‘precision’、‘reca..原创 2021-12-09 10:49:38 · 3202 阅读 · 0 评论 -
【SKLEARN】StandardScaler()及其fit_transform()方法
1.StandardScaler()函数,其官方解释如下:中文翻译为:通过删除平均值并缩放到单位方差来标准化特征。样本x的标准分数计算如下:z=(x-u)/s其中,u是训练样本的平均值,如果_mean=False,则为零;如果_std=False,则s是训练样本的标准偏差或一。通过计算训练集中样本的相关统计信息,对每个特征分别进行定心和缩放。然后存储平均值和标准偏差,以便使用transform在以后的数据上使用。数据集的标准化是许多机器学习估计器的共同要求:如果单个特征或多或原创 2021-12-09 12:35:30 · 10967 阅读 · 0 评论