机器学习
文章平均质量分 56
Steven灬
不知不为过,不学就是错!
展开
-
数据分析初步之数据预处理
有段时间没写博客了,最近一直在忙自己的事。听说今天发一篇原创博客就可以领个勋章,想想没啥可写的,就把之前的学习笔记整理一下,1024,请赐我一枚勋章,哈哈哈……数据分析初步之数据预处理一、生成数据表import numpy as npimport pandas as pd1 导入数据表df = pd.DataFrame(pd.read_csv('name....原创 2019-10-24 16:22:11 · 2949 阅读 · 0 评论 -
过拟合与欠拟合
过拟合(overfitting)与欠拟合(underfitting):场景描述:在模型评估与调整的过程中,往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象,并有针对性进行模型调整,是不断改进机器学习模型的关键。特别是在实际项目中,采用多种方法、从多个角度降低“过拟合”和“欠拟合”的风险是应当具备的基础知识。在模型的评估过程中,过拟合和欠拟合具体是指什么现...原创 2019-08-20 10:04:17 · 470 阅读 · 0 评论 -
无监督学习K-means文本聚类实践
无监督学习(Unsupervised Learning)希望能够发现数据本身的规律和模式,与有监督学习相比,无监督不需要对数据进行标记。这样可以节约大量的人力物力成本。某种程度上说,机器学习的终极目标就是无监督学习。从功能上看,无监督学习可以帮助我们发现数据的‘簇’,同时也可以帮助我们寻找‘离群点’,还可以对高维度特征的数据进行数据降维,保留数据主要的特征,对高维空间数据进行处理。聚类是试...原创 2019-06-03 12:26:50 · 16379 阅读 · 8 评论 -
Sklearn中CountVectorizer,TfidfVectorizer详解
本特征提取:将文本数据转化成特征向量的过程,比较常用的文本特征表示法为词袋法词袋法:不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征,这些不重复的特征词汇集合为词表,每一个文本都可以在很长的词表上统计出一个很多列的特征向量,如果每个文本都出现的词汇,一般被标记为 停用词 不计入特征向量。 主要有两个api来实现 CountVectorizer 和 TfidfVectorizerC...原创 2019-05-21 10:14:46 · 13865 阅读 · 1 评论 -
sklearn中train_test_split()函数详解
train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。corpus总数为10001条的数据,train_X, test_X为文本数据,train_Y, test_Y为标签数据test_size = 0.3train_X, test_X, train_Y, test_Y = train_test_split(cor...原创 2019-05-16 17:25:03 · 22272 阅读 · 0 评论