机器学习
文章平均质量分 95
别追我我有止咳糖浆
这个作者很懒,什么都没留下…
展开
-
数据分析-pandas2
接上述1。原创 2024-04-23 11:06:11 · 1059 阅读 · 0 评论 -
数据分析-pandas1
Pandas 是 Wes McKinney 在2008年开发的一个强大的的工具集。Pandas 以 NumPy 为基础(实现数据存储和运算),提供了专门用于数据分析的类型、方法和函数,对数据分析和数据挖掘提供了很好的支持;同时 pandas 还可以跟数据可视化工具 matplotlib 很好的整合在一起,非常轻松愉快的实现数据可视化呈现。Pandas 核心的数据类型是Series(数据系列)、DataFrame(数据窗/数据框),分别用于处理一维和二维的数据,除此之外,还有一个名为Index。原创 2024-04-23 09:47:07 · 723 阅读 · 0 评论 -
数据分析-numpy
Numpy 是一个开源的 Python 科学计算库,。Numpy,对于同样的数值计算任务,使用 NumPy 不仅代码要简洁的多,而且 NumPy 在性能上也远远优于原生 Python,至少是一到两个数量级的差距,而且数据量越大,NumPy 的优势就越明显。NumPy 最为核心的数据类型是ndarray,使用ndarray可以处理一维、二维和多维数组,该对象相当于是一个快速而灵活的大数据容器。NumPy 底层代码使用 C 语言编写,解决了 GIL 的限制,ndarray。原创 2024-04-22 14:33:45 · 549 阅读 · 0 评论 -
防止决策树过度拟合
如何解决过度拟合数据问题的发生1. 针对于上述原因1:合理、有效地抽样,用相对能够反映业务逻辑的训练集去产生决策树;2. 针对于上述原因2:剪枝:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝剪枝:一般来说,神经网络层数越深、参数越多,所得出的结果就越精细。但与此同时,问题也来了:越精细,意味着所消耗的计算资源也就越多。这个问题怎么破?这就要靠剪枝技术了。言下之意,把那些对...翻译 2018-11-19 16:13:15 · 1506 阅读 · 0 评论 -
KNN算法的原理:
KNN算法的原理:knn不仅可以实现分类还可以实现回归.kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别.最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可...翻译 2018-11-19 14:09:12 · 985 阅读 · 0 评论 -
L1正则化与L2正则化的差别
翻译 2018-11-19 12:05:31 · 216 阅读 · 0 评论 -
应用机器学习建议
动机当一个算法在训练集表现优秀,但在测试集表现不佳时,我们需要考虑如何改良算法。方法包括:修改拟合函数的最高阶数增加或者减少特征数修改regularization参数λ增加样本数,扩大数据集该从何处下手?乱试是不行的,我们可以按照以下步骤来评估各种方法的效能。在评估之前,我们先将数据集划分为{训练集,交叉验证集,测试集}三个子集,这三个子集可以分别占总集的60%,20%,20%,我...转载 2018-11-19 10:52:20 · 155 阅读 · 0 评论 -
欠拟合与过拟合的区别的详细解释
欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差欠拟合和过拟合一直是机器学习训练中的难题,在进行模型训练的时候往往要对这二者进行权衡,使得模型不仅在训练集上表现良好,在验证集以及测试集上也要有出色的预测能力。解决欠拟合(高偏差)的方法1.模型复杂化对同一个算法复杂化。例如回归模型添加更多的高次项...转载 2018-11-19 10:44:19 · 3791 阅读 · 0 评论 -
决策树
import math#按照分类的类别换分,计算信息熵#no 3/10# yes 7/10info_D = -0.3*math.log2(0.3) + (-0.7 * math.log2(0.7))info_D0.8812908992306927# 按照L划分# s 0.3 --> no yes no | no 2/3 yes 1/3# m 0.4 --&gt...原创 2018-11-16 18:31:36 · 240 阅读 · 0 评论 -
sklearn数据 预处理
简单易懂的机器学学习第三方库,使用前需要安装pip install sklearn #提前安装,有点大导入需要的包#encoding=utf-8from sklearn.cluster import KMeansfrom sklearn.datasets import load_digits,fetch_20newsgroupsfrom sklearn.feature_extrac...原创 2018-11-12 17:45:15 · 257 阅读 · 0 评论 -
基本概念机器学习
原创 2018-11-05 20:59:33 · 182 阅读 · 0 评论 -
数据分析示例
numpy十分钟Axis:纬度 0按列 1 按行Corrcoef:相关性Copy:拷贝 相当于深拷贝sort:排序A = np.transpose(b)A.T 矩阵转至B.ravel()Concatebate():数据拼接Pandasimport jiebaimport pandas as pd#创建一个默认索引从0开始的Seriess = pd.Series([...原创 2018-11-07 19:47:44 · 256 阅读 · 0 评论 -
numpy
原创 2018-11-06 18:41:08 · 161 阅读 · 0 评论 -
python作用域
python作用域:在python中作用域有四种,简称LEGB(优先级L>E>G>B):L(Local):局部作用域E(Enclosing):闭包函数外的函数中G(Global):全局作用域B(Build-in):内建作用域a = 10 #全局作用域def test(): b = 20 #闭包函数外的函数中 def inner(): c = ...原创 2018-11-06 08:52:52 · 148 阅读 · 0 评论