机器学习-基于sklearn
文章平均质量分 82
从基础开始,到数据分析
风月雅颂
这个作者很懒,什么都没留下…
展开
-
机器学习——支持向量机
支持向量机(Support Vector Machine,SVM)的基本思想是在N维数据找到N-1维的超平面(hyperplane)作为分类的决策边界。原创 2023-12-27 14:25:15 · 2319 阅读 · 0 评论 -
机器学习——朴素贝叶斯
朴素贝叶斯算法或朴素贝叶斯分类器(Naive Bayes Classifier,NBC)发源于古典数学理论,是基于贝叶斯理论与特征条件独立假设的分类方法,通过单独考量每一特征被分类的条件概率作出分类预测。原创 2023-12-27 10:40:22 · 1289 阅读 · 0 评论 -
机器学习——线性模型(二)
线性回归最小二乘法的两种求解方法(即优化方法)分别是正规方程和梯度下降。原创 2023-12-27 08:52:16 · 1042 阅读 · 0 评论 -
机器学习——线性模型
在机器学习领域,常见的线性模型有线性回归、逻辑回归、岭回归等。其中,线性回归是利用数理统计中的回归分析来确定两种或两种以上变量相互依赖的定量关系的一种统计分析方法。原创 2023-12-26 16:05:55 · 1204 阅读 · 1 评论 -
机器学习——决策树(三)
采用决策树进行分类,要经过数据采集、特征向量化、模型训练和决策树可视化4个步骤。原创 2023-12-26 11:24:30 · 799 阅读 · 0 评论 -
机器学习——决策树(二)
决策树描述的是通过一系列规则对数据进行分类的过程。决策树分为分类树和回树两种,分类树的对离散变量进行决策,回归树用于对连续变量进行决策。原创 2023-12-26 09:22:38 · 1198 阅读 · 0 评论 -
机器学习——决策树(一)
决策树(decision tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于或等干0的概率,用以评价项且风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称为决策树。原创 2023-12-26 08:50:06 · 1565 阅读 · 1 评论 -
机器学习——损失函数
损失函数(loss function)又称为误差函数(error function),是衡量模型好坏的标准,用于估量模型的预测值与真实值的不一致程度,是一个非负实值函数。损失函数的一般表示为L(y,f(x)),用以衡量真实值y与预测值f(x)不一致的程度,一般越小越好。原创 2023-12-22 10:05:47 · 1569 阅读 · 0 评论 -
机器学习——分类评价指标
对于模型的评价往往会使用损失函数和评价指标,两者的本质是一致的。一般情况下,损失函数应用于训练过程,而评价指标应用于测试过程。原创 2023-12-21 16:38:38 · 1316 阅读 · 0 评论 -
机器学习——模型评估与选择(拟合、)
拟合是指机器学习模型在训练的过程中,通过更新参数,使得模型不断契合可观测数据(训练集)的过程。原创 2023-12-21 12:51:33 · 1157 阅读 · 0 评论 -
机器学习——特征选择(二)
特征选择皮尔森系数以及嵌入法。原创 2023-12-21 10:09:44 · 612 阅读 · 0 评论 -
机器学习——特征选择(一)
特征选择,又称变量选择、属性选择或变量子集选择,是选择相关特征子集用于模型构造的过程。简要地说,通过检测相关特征。摒弃冗余特征,获得特征子集,从而以最小的性能损失更好地描述问题。原创 2023-12-20 15:12:25 · 1595 阅读 · 0 评论 -
机器学习——特征降维
特征降维是指减少特征个数,最终结果就是特征和特征之间不相关。由于特征矩阵过大,会导致计算量大、训练时间长,因此降低特征矩阵维度必不可少,特征降维是通过选取有代表性的特征,减少特征个数,得到一组不相关主变量的过程。原创 2023-12-20 14:13:02 · 1102 阅读 · 0 评论 -
机器学习——中文分词
中文分词是指将汉字序列按照一定规则逐个切分为词序列的过程。在英文中,单词间以空格为自然分隔符,分词时自然以空格为单位进行切分,而中文分词则需要依靠技术和方法寻找类似英文中空格作用的分隔符。原创 2023-12-19 13:52:23 · 1195 阅读 · 0 评论 -
机器学习——特征提取
数据具有多种数据类型,除了数字化的信号数据(声音、图像等),还有大量符号化的文本。但是,机器学习模型无法处理符号化的文本,只能接收数值型和布尔型数据,需要对数据进行特征提取。特征提取又称特征抽取,是将任意数据(如字典、文本或图像)转换为机器学习的特征向量。原创 2023-12-19 10:17:31 · 696 阅读 · 0 评论 -
独热编码——文本数据
机器学习算法往往无法直接处理文本数据,需要把文本数据转换为数值型数据,独热编码就是一种解决方法。独热(one-hot)编码又称为一位有效编码。独热编码将文本中的单词编号,构建字典结构的词汇表。其中,key是单词,value是单词的索引。词汇表有n个单词,构成n个词向量。例如,某个单词在词汇序列中的位置为k,对应的词向量的第k个位置为1,其他位置都为0。独热编码保证了每一个取值只会使得一种状态处于激活态,也就是说多种状态中只有一个状态位为1,其他状态位都是0.独热编码具有操作简单、容易理解的优势。原创 2023-12-18 14:41:15 · 507 阅读 · 0 评论 -
机器学习——数据划分
在机器学习中,通常将数据集划分为训练集和测试集。训练集用于训练数据,生成机器学习模型;测试集用于评估学习模型的泛化性能和有效程度。原创 2023-12-18 12:54:04 · 1465 阅读 · 1 评论 -
WordCloud—— 词云
wordcloud 是python的第三方库,称为词云,也成文字云,可以根据文本中的词频以直观和艺术化的形式展示文本中词语的重要性。原创 2023-12-18 09:10:16 · 834 阅读 · 0 评论 -
missingno——缺失数据可视化
数据处理中,缺失数据可视化。missingno提供了一个灵活且易于使用的缺少数据可视化工具和实用程序的小型工具集,可以快速直观地概述数据集的完整性。原创 2023-12-15 11:15:58 · 712 阅读 · 0 评论 -
机器学习——特征预处理
特征预处理就是对数据进行集成、转换、规约等一系列处理,使之适合算法模型的过程。原创 2023-12-14 12:51:47 · 1153 阅读 · 0 评论 -
机器学习——数据清洗
缺失值通常是指记录的缺失和记录中某个字段信息的缺失,一般以空白、NaN或其他占位符编码,采用删除法和数据填充进行处理。原创 2023-12-14 09:51:44 · 1479 阅读 · 0 评论 -
Index对象
创建series或DataFrame等对象时,索引都会被装换为Index对象。Index对象可以通过pandas.Index函数创建,也可以通过创建数据对象series、DataFrame时接收index(或column)参数创建,前者属于显式创建,后者属于隐式创建。原创 2023-12-13 08:32:44 · 403 阅读 · 0 评论 -
matplotlib
Matplotlib发布于2007年,在其函数设计时参考MATLAB相关函数,故命名以“Mat”开头,“Plot”表示绘图,“Lib”为集合。Matplotlib可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形,主要用于将NumPy统计计算结果可视化。原创 2023-09-26 10:38:31 · 60 阅读 · 0 评论 -
Pandas
pandas数据创建原创 2023-12-12 14:32:43 · 873 阅读 · 0 评论 -
Scipy——分布函数
泊松分布、二项分布、正态分布的scipy实现。原创 2023-12-12 10:46:03 · 430 阅读 · 0 评论