机器学习基础
文章平均质量分 54
坏掉的世界
还有很长路要走的小渣渣
展开
-
使用PCA对特征进行降维
文章目录一、PCA是什么?二、使用方法1.引入库2.数据处理3.运用PCA进行降维总结一、PCA是什么?在大量数据中,很多特征之间可能都存在着一定的相关性。再者,特征划分的越细,特征数量越多还可能导致过拟合的情况出现。因此,在特征数量众多的情况下,可以采取一定的手段对特征进行降维。主成分分析(Principal Component Analysis,简称PCA)是最常用的一种降维方法。该方法可以尽可能的保留大量特征中的主要信息,对特征数量进行简化,从而简化模型的计算。接下来用Kaggle中的Ins.原创 2022-01-24 16:30:21 · 4080 阅读 · 2 评论 -
归一化和标准化
文章目录一、归一化二、标准化总结一、归一化由于不同特征值的数值差别可能比较大,因此可以利用归一化对数据进行等比例的缩放到同一小区间内。归一化是以列为操作对象,对每一列的每个数据进行缩放,计算公式如下:其中max和min为每一列(即每个特征列)数据的最大和最小值。使用场景:不同特征列的特征值相差比较大,但是那些特征又同等重要的时候使用。缺点:由于是根据每列的最大最小值得出的缩放值,所以容易受异常点的影响。sklearn实现代码如下:from sklearn.preprocessing im.原创 2022-01-21 10:28:17 · 2461 阅读 · 0 评论 -
文本特征抽取及jieba的简单使用
文章目录前言一、文本特征抽取是什么?二、使用方法1.对普通的英文文本特征值化2.对包含中文文本的数据进行特征值化(使用jieba分词库)2.1导入jieba库2.2运用jieba库进行分词2.3进行特征值化2.4运行结果前言简单记录机器学习特征工程的文本特征抽取及jieba的使用一、文本特征抽取是什么?数据分析过程中,为了将文本数据转换为计算机所认识的数字数据,从而实现文本数据的特征值化的功能。二、使用方法可以调用sklearn的特征工程相关方法,直接对文本列表进行文本特征值化。1.对普通的原创 2022-01-20 16:57:13 · 1302 阅读 · 0 评论 -
字典数据特征抽取
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、字典数据特征抽取是什么?二、使用步骤1.引入库2.字典数据特征提取函数2.运行结果总结前言简单记录一下本人学习机器学习的学习过程提示:以下是本篇文章正文内容,下面案例可供参考一、字典数据特征抽取是什么?将字典数据中的数据(常常带有文本)处理翻译成计算机可以认识的数据二、使用步骤1.引入库导入sklearn库:from sklearn.feature_extraction import DictVecto原创 2022-01-13 17:03:55 · 742 阅读 · 0 评论 -
机器学习入门之转换器与估计器
一、转换器转换器是一种实现特征工程操作的一组API,可以较方便的完成常用的特征工程操作。分类fit:计算一些数据的平均数、方差等transform:进行一些数据转换fit_transform:相当于fit+transform,既实现了fit的功能,又实现了transform的功能。二、估计器对机器学习常用的基础算法具体实现的一组API用于分类的估计器:sklearn.neighbors k-近邻算法sklearn.naive_bayes 贝叶斯sklearn.linear_mod原创 2021-07-13 22:13:36 · 414 阅读 · 0 评论 -
数据特征的抽取
方法一:CounterVectorize统计所有文章中出现的词语(单个字符不统计),重复的只统计一次。CounterVectorize的使用(文本特征抽取)导包首先要导入sklearn下的包from sklearn.feature_extraction.text import CountVectorizer实例化CounterVectorizer对象cv=CountVectorizer()文本特征抽取并转化data=cv.fit_transform(["life is sh原创 2021-07-09 20:29:00 · 618 阅读 · 0 评论