Python数据挖掘
文章平均质量分 85
数据挖掘基本算法,数据分析方法
梚枫_
晚风吹人醒,万事藏于心!
展开
-
Scipy的使用
导库# python3.7# -*- coding: utf-8 -*-#@Author : huinono#@Software : PyCharmimport numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as pltfrom scipy.integrate import odeintimport sys#把其它工作路径路径添加进去sys.path.appen原创 2023-08-03 11:45:23 · 156 阅读 · 0 评论 -
文章目录与概览
随机动力学、机器学习、优化方法原创 2022-11-23 17:56:42 · 530 阅读 · 0 评论 -
SVM支持向量机算法
概述支持向量机(Support Vecor Machine, SVM)本身是一个二元分类算法,是对感知器算法模型的一种扩展,现在的SVM算法支持线性分类和非线性分类的分类应用,并且也能够直接将SVM应用于回归应用中 。我们也可以将SVM应用在多元分类领域中。概念线性可分(Linearly Separable):在数据集中,如果可以找出一个超平面,将两组数据分开,那么这个数据集叫做线性可分数据。线性不可分(Linear Inseparable):在数据集中,没法找出一个超平面,能够将两组数据分开,那原创 2021-04-14 17:01:05 · 377 阅读 · 0 评论 -
EM算法与GMM算法
EM算法(Expectation Maximization Algorithm, 最大期望算法)是一种迭代类型的算法,是一种在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量。GMM(Gaussian Mixture Model, 高斯混合模型)是指该算法油多个高斯模型线性叠加混合而成。每个高斯模型称之为component。GMM算法描述的是数据的本身存在的一种分布。GMM算法常用于聚类应用中,component的个数就可以认为是类别的数量。原创 2021-04-14 12:40:34 · 828 阅读 · 2 评论 -
集成学习之Adaboost与GBDT
集成学习本身并非由单一的机器学习算法构成,而是通过构建多个机器学习器并使用组合策略结合这些学习器来完成学习任务,集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等原创 2021-04-13 19:22:58 · 242 阅读 · 0 评论 -
集成学习之随机森林
集成学习本身并非由单一的机器学习算法构成,而是通过构建多个机器学习器并使用组合策略结合这些学习器来完成学习任务,集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等原创 2021-04-13 12:46:41 · 711 阅读 · 0 评论 -
集成学习之决策树
决策树作为一种树形结构,模仿的是人类在做决策的过程。对于分类决策树,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别,而根节点则存放所有数据。对于回归决策树,区别于分类决策树的是每个叶节点输出的是样本实数结果,最后输出样本的均值作为预测值。原创 2021-04-13 11:15:16 · 585 阅读 · 1 评论 -
熵值法、灰色关联分析与层次分析法
熵值法是一种依据各指标值所包含的信息量大小,来确定决策指标权重的客观赋权法。灰色系统理论的研究对象是部分信息已知而部分信息未知的“贫信息”’不确定性系统,利用已知信息来确定系统的未知信息,对样本量没有严格的规定,也不要求服从任何典型分布规律,且不会出现量化结果与定性分析不一致的情况。而关联分析是灰色系统分析、评级和决策的基础,其基本思想是根据数据指标呈现出的序列曲线的几何形状相似程度来判断两个指标之间的联系是否紧密,通过关联度表征两个事物间的关联程度。层次分析法。原创 2021-03-21 12:28:14 · 13232 阅读 · 1 评论 -
贝叶斯决策、朴素贝叶斯算法与词频统计
贝叶斯决策论是概率框架下实施决策的基本方法。对于分类任务,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。原创 2020-05-27 17:58:58 · 829 阅读 · 0 评论 -
聚类算法介绍、K-means聚类的实现与衍生算法、密度聚类
K-means算法,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算法的第一个算法,是无监督的聚类算法,算法简单,聚类效果好,即使是在巨大的数据集上也 非常容易部署实施。正因为如此,它在很多领域都得到的成功的应用,如市场划分、机器视觉、 地 质统计学、天文学和农业等。原创 2020-05-26 17:39:15 · 1467 阅读 · 0 评论 -
KNN算法实现,KD-Tree与sklearn实现
KNN,称K近邻,是一种有监督学习算法,可处理分类和回归问题。原创 2020-05-26 13:57:27 · 1839 阅读 · 0 评论 -
逻辑回归二分类与softmax多分类方法实现
一般来说,回归不使用与分类问题中,因为回归是连续型模型,而且数据噪音会影响模型结果,因此,可以使用一些函数对回归结果进行归类,达到分类的结果原创 2020-05-22 22:17:29 · 1903 阅读 · 0 评论 -
数据降维之PCA方法与python实现
在数据分析的应用场景下,收集大量的数据能够更好地去寻找规律,并且更多的特征可以增加研究准确性。但是在大多数情况下,许多特征之间存在关系,从而增加了模型的复杂性,对数据分析带来不便。如果对每个特征进行分析,信息会被孤立。而且减少特征信息, 也很容易产生错误的结论。为了能够减少分析特征的同时,对收集的数据进行全面的分析,因此用较少的综合指标分析存在于各变量中的各类信息,主要方法有PCA、LDA等原创 2020-05-20 20:36:08 · 523 阅读 · 0 评论 -
数据切分与拟合问题
数据切分留出法一部分为训练集、一部分为测试集应尽量保证数据分布的一致性划分比例:7:3左右留一法m个样本,令k=m,作为cv的特例。只有一种划分方法,即每个测试集只有一条数据。优势:每个模型都能很好的反映原始数据集的特性劣势:计算量在数据量大时会非常大,还不算调参的计算量自助取样法对D中的m个数据随机取样,接着将数据放回原数据集继续取样,重复m次,产生一个新的数据集D‘。最后用未取到的数据作为测试集未取到的数据占比36.8%网格搜索与交叉验证交叉验证划分为K个互斥子集原创 2020-05-15 11:51:41 · 501 阅读 · 0 评论 -
线性回归理论与sklearn使用回归例子
简单线性回归算法理论数据集:(xi,yi,i=1,2,3,4...,n)(x_{i},y_{i},i=1,2,3,4...,n)(xi,yi,i=1,2,3,4...,n)线性模型:hθ(x)=θ0+θ1x+θ2x+...h_{\theta}(x)=\theta_{0}+\theta_{1}x+\theta_{2}x+...hθ(x)=θ0+θ1x+θ2x+...模型估计:hθ(xi)=θ0+θ1xi+θ2xih_{\theta}(x_{i})=\theta_{0}+\theta_{1原创 2020-05-14 21:10:24 · 481 阅读 · 0 评论 -
Matplotlib库的基本使用
官网文档:https://matplotlib.org/绘图基础语法与常用参数1、掌握pyplot基础语法创建画布与创建子图第一部分的作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分。函数名称函数作用plt.figure创建一个空白画布,可以指定画布大小、像素figure.add_subplot创建并选中子图,可以指定子图的行数、列数和选中图片的编号添加画布内容第二部分是绘图的主题部分。可以先绘制图形再添加标签,但是添加图例一定要在绘图之后。原创 2020-05-12 14:16:54 · 759 阅读 · 0 评论 -
pandas库的使用
官方文档:https://pandas.pydata.org/axis=0,表示纵向,行操作axis=1,表示横向,列操作pandas统计分析基础1、读/写不同数据源的数据在生产环境中,绝大多数数据都存储于数据库中。pandas提供了读取与存储关系型数据库数据的函数与方法。除了pandas库以外,还需要使用SQLAlchemy库建立对应的数据库连接。SQLAlchemy配合相应数据库的Python连接工具(如:MySQL需要pymysql库,Oracle需要cx_engine库),使用create原创 2020-05-12 13:58:31 · 2157 阅读 · 0 评论 -
Numpy库的使用
创建数组对象axis为轴,n维数组有n个轴,axis的取值为1,2,3,4…,n1、数组属性属性说明ndim表示数组的维度shape表示数组的尺寸,(n,m)size返回数组的元素总数dtype描述数组中元素的类型itemsize表示数组的每个元素的大小(以字节为单位)arr.astype(‘数组类型’)转换数组类型arr....原创 2020-05-09 14:59:58 · 571 阅读 · 0 评论