自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (2)
  • 收藏
  • 关注

原创 机器学习:集成学习

通过训练多个个体学习器,及一定的结合策略,形成最终的强学习器;

2022-12-19 20:35:41 418 1

原创 贝叶斯网络

有监督的学习算法,解决的是分类问题,如新闻分类、评论分类、邮件分类、客户是否流失、是否值得投资、信用等级评定等二分类和多分类问题;用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念;经典统计学:抽样信息 = 总体信息 + 样本信息;贝叶斯统计学:总体信息+样本信息+先验信息;选择具有最高概率的决策(计算每种类别,选择最高概率的类别);

2022-12-19 10:42:14 1202

原创 机器学习:支持向量机

构造一个函数,使得该函数在可行解区域内与原目标函数完全 一致,而在可行解区域外的数值非常大,那么这个没有约束条件的新目标函数的优化问题就与原来有约束条件的原始目标函数的优化问题等价。算法原理:根据约束条件随机给α赋值,每次选取两个α,调节两个α 使得目标函数最小,然后再选取别两个α,调节α使得目标函数最小,不断循环,直到达到目标函数最小值;)将输入变量映射到一个高维特征空间,将其变成在高维空间线性可分,在这个高维空间中构造最优分类超平面;在线性不可分的情况下,SVM通过某种事先选择的非线性映射(

2022-12-12 16:25:08 169

原创 机器学习:神经网络

由一个个被称为“神经元”的基本单元构成,神经元结构由输入、计算单元和输出组成;

2022-11-28 19:01:53 102

原创 机器学习:特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高对未知数据预测的准确性;通过一系列的工程活动, 将这些信息使用更高效的编码方式(特征)表示;好数据(好特征)> 多数据 > 好算法 → 数据和特征决定了模型预测的上线,算法只是逼近这个上线而已;模型选择的特征数量少而精准;

2022-11-24 21:48:45 291

原创 机器学习:逻辑回归

Logistic回归是概率型非线性回归模型, 是研究二值型输出分类的一种多变量分析方法。对于二分类问题,通过sigmoid函数接受输入,预测出两种类别概率,从而输出0或者1;代码:2、逻辑回归样本概率:取对数,求联合概率:二、Softmax回归用于处理多分类问题,其中,任意两个类之间是线性可分的;2、https://www.jianshu.com/p/d7e85735a657机器学习——鸢尾花数据集_智慧少女要秃头...的博客-CSDN博客_鸢尾花数据集2、网格搜索优化参数

2022-11-01 21:09:46 101

原创 机器学习:线性回归

z=f(x,y) 在 点 P(x,y) 处 的梯 度方 向 与 点 P 的等高线 f(x,y)=c在这点的法向量的方向相同,且从数值较低的等高线指向数值较高的等高线;利用迭代点Xk处的一阶导数(梯度)和二阶导数 对目标函数进行二次函数近似,然后把二次函数的极小点作 为新的迭代点。方差:度量同样大小的训练集的变动所导致的学习性能变化,刻画数据扰动所造成的影响;函数z=f(x,y)在点P沿哪个方向变化的速率最大,这个方向就是梯度的方向;偏差:度量学习算法的期望预测与真实结果的偏离程度,刻画算法本身的拟合能力;

2022-10-19 21:55:57 309

原创 机器学习:决策树

根节点、内部节点、叶节点(终节点);决策树学习算法包含特征选择、决策树的⽣成与决策树的剪枝。树的学习算法是 "贪⼼算法",从包含全部训练数据的根开始,每⼀步都选择最佳划分。依赖于所选择的属性是数值属性还是离散属性,每次将数据划分为两个或多个⼦集,然后使⽤对应的⼦集递归地进⾏划分,知道所有训练数据⼦集被基本正确分类,或者没有合适的特征为⽌,此时,创建⼀个树叶结点并标记它,这就⽣成了⼀颗决策树。决策树的⽣成只考虑局部最优,决策树的剪枝则考虑全局最优。在分类树中,划分的优劣⽤不纯度度量定量分析。度量不纯性的函数:

2022-10-09 08:28:43 222

原创 机器学习:Kmeans

数据集中特定点的密度通过对该点半径之内的点计数(包括点本身)来估计,但点的密度取决于 指定的半径。稠密区域内部的点(核心点):该点的给定领域内的点的个数超过给定的阈值;稠密区域边缘上的点(边界点):不是核心点,但它落在某个核心点的领域内;稀疏区域中的点(噪声或背景点):既非核心点也非边界点的任何点;

2022-10-02 11:59:39 519

原创 机器学习:KNN

对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程---分类任务:标签是离散值;回归任务:标签是连续值;对不带任何标签的数据特征进行建模---聚类算法:将数据分成不同组别;降维算法:用更简洁的方式表现数据;在数据不完整时使用;系统靠自身的状态和动作进行学习,从而改进行动方案以适应环境;

2022-09-25 09:37:49 208

原创 数据清洗:Pandas_2

切分方法: Python中内置函数map:map:映射函数, 把一个函数操作, 映射到一个序列中的每一个元素;Series中的map方法:map是Series 中特有的方法,通过它可以对 Series 中的每个元素实现转换。 applymap对于DataFrame,作用于DataFrame的每个元素,只支持函数; 可指定合并轴;pd.merge('left', 'right', "how='inner'", 'on=None', 'left_on=None', 'right_on=None)how取值: 什

2022-09-15 06:01:26 85

原创 数据清洗:Pandas_1

把Series当做是一个字典,索引就是字典的 key,数据就是字典的 value。

2022-09-12 10:26:21 64

原创 数据清洗:Numpy

Numpy 的核心是 ndarray 对象,包含了多维数组以及多维数组的操作;

2022-09-06 06:09:29 410

原创 Python:基础语法三

Python 使用被称为的特殊对象来管理程序执行期间发生的错误。每当发生让 Python 不知所措的错误时,它都会创建一个异常对象。如果你编写了处理该异常的代码,程序将继续运行;如果你未对异常进行处理,程序将停止,并显示一个 traceback ,其中包含有关异常的报告。......

2022-08-25 20:49:50 85

原创 Python:基础语法二

在自定义函数开头添加多行字符串,注意缩进;

2022-08-14 18:27:11 59

原创 Python:基础语法一

存储或操作一组数据的集合,可以使任何数据类型;shift+tab查看方法的操作文档;由字母、数字、下划线、中文构成;名字不能和关键字/保留字相同;字符串为空返回False。

2022-08-02 07:33:22 133

原创 SPSS 市场细分:客户画像\客户价值模型

行为标签(x)\价值标签(y)近6个月运营报告;分析 → 分类 → 二阶聚类 《千面英雄》《故事》宽泛器期是正常使用的一般; rank变换:转换 → 个案排秩转换 → 可视分箱回头客分析:当1笔订单>>>>2笔订单;转化率分析:当2笔订单>>>>3笔订单;当RFM各拆为俩部分占比: R F M.........

2022-07-13 09:28:08 2290

原创 SPSS 特征筛选、主成分回归

小数据 → y:连续性变量 → x:6个以内 → 理论 → 验证 → 统计分析;大数据 → y:分类变量 → x:15个以内 → 探索 → 数据挖掘;老年人和未成年人电商不分析 → 主要是促销活动容易触发法律;电商领域很多指标都是反推出来的;实用程序 → 定义变量集 → 第一步 实用程序 → 使用变量集 → 第一步分析 → 相关 → 双变量实用程序 → 定义变量集 → 第二步 实用程序 → 使用变量集 → 第二步 不怕共线性的算法:贝叶斯,包含主成

2022-07-03 17:56:02 3463

原创 SPSS 卡方、logistic回归、评分卡

logit变换:y → 分组取P → log(p/(1-p)) ;logistic回归: log(p/(1-p)) = β0 + β1x1 + β2x2 + ... + βnxn;如何看数据: 行:看大小(小:60~3000行、质量高、问卷; 大:10万行以上、质量低、数据库); 列:测量级别、角色(y、x判定);y的判定:图形构建器 → 条形图 → 简单条形图 → 组 → 分组 → 将x放入横坐标,y放入堆积; 国际顶级银行违约率控制在2%以内; 国内顶级银行违约率控制在10%以

2022-06-30 21:17:07 1362 1

原创 SPSS:方差、相关、回归

数据分析流程数据分析俩大方向:小数据分析重要性:小众>异常>大众;大数据分析重要性:大众>异常>小众;数据描述:均值、标准差、最大值、最小值、截距; 图形:低微探索数据以推演高维;模型:高维探索数据用低微描述;分析 → 回归 → 线性 → 因变量:y(关心的指标);自变量:x(一般把不重要的指标放后面)→ 确定 图形→图形构建器→图库→散点图→简单散点图→y:纵坐标;x:横坐标→确定;双击图形→向X\Y轴添加参考线→将标签附加到线→应用;高尔顿:发明协方差,最大贡献优生学,表哥达尔文,学生皮尔逊(统计学之父

2022-06-25 20:24:34 3222

原创 统计学六 回归模型

无论上一期数据如何波动,本期数据围绕均值波动。线性回归:非线性回归:变量变换(特征项高阶/取对数): 总的误差平方和最小。𝛽0、𝛽1的最小二乘估计: 养成跑完回归后看残差的好习惯,用残差检验模型假设。前提:残差相互独立,且服从均值为0,方差为σ2(总体残差的方差)的正态分布。原假设:无线性相关; 备择假设:线性相关;当H0为真时,t1服从自由度为n-2的t分布。可以用t1值和t分布的临界值比较,也可以用p(t1)和显著性水平做比较。线性回归只做单侧检验。当X=x0时,y的均值μ0。 都在45..

2022-06-09 21:28:33 1598

原创 统计学四 假设检验

原假设H0:待检验的假设,一般把想要拒绝的放原假设。备择假设H1:与原假设对立的假设。第一类错误(弃真):H0为真,拒绝H0,第一类错误的概率为α,称为显著性水平。第二轮错误(取伪):H0为假,拒绝H0,第二类错误的概率为β。**一般只关心第一类错误...............

2022-06-06 20:14:34 1397

原创 统计学五 相关分析

自己与自己的协方差即为方差。值在[-1,1]之间,大小表示Y与X之间线性相关的强弱,正负表示方向; 皮尔逊相关系数特点:通过画散点图过滤掉皮尔逊相关系数的缺点必须建立在相关系数通过显著性检验的基础之上。......

2022-06-05 21:16:43 659

原创 统计学三 参数估计

估计量:统计量(样本均值、样本比例...),是总体参数的估计量; 估计值:统计量具体的值;一、评估统计量的标准1、无偏性:估计量抽样分布的数学期望等于被估计的总体均值2、有效性:对统一总体参数的俩个无偏点估计量,标准差越小越有效。(同条件最优)3、一致性:随样本量增大,估计量的值越接近被估计的总体参数。二、点估计1、泊松分布泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为λ2、点估

2022-05-31 21:49:09 880

原创 统计学二 统计量及其抽样分布

一、

2022-05-28 22:01:45 1989

原创 统计学一 数据的概括性度量

一、平均数、中位数、众数

2022-05-20 21:34:23 700

原创 python软件安装

一、python安装1、访问Python官网:Welcome to Python.org历史版本,可以访问这里:https://www.python.org/downloads/2、下载python最新版本3、双击安装应用程序,开始安装程序;4、选择默认安装安装ing5、安装成功,关闭6、验证是否安装成功6.1、win+r:输入cmd ;确认6.2、输入python;输入import this;如下,显示成功。二、Anaconda.

2022-05-17 20:56:33 149

原创 MySQL:窗口函数、索引、视图

1)窗口函数# 1 语法函数名([expr]) over(partition by <分组字段> order by <排序字段> rows between <数据范围/窗口>) # 2 数据范围rows between 2 preceding and current row # 前2行到当前行rows between unbounded preceding and current row # 本行及之前所有行rows between current

2021-10-30 18:02:21 472

原创 MySQL:表查询、函数

合并条件:列相同,对应列的数据类型相同,类名可以不同,重复检查null不会被忽略。union all:合并俩个及以上select语句的结果集,不消除重复行。union:合并俩个及以上select语句的结果集,并消除重复行。一张表只能有一个主键,但是可以有多个唯一约束。外键:数据表中,指向另一数据表的主键的字段。主键:数据表中,唯一标识每一条记录的字段。主表:主键所在的表(外键缩指向的表)。从表:外键所在的表。......

2021-10-27 17:44:58 167

原创 MySQL:数据类型、增删改查

1、数据库:1)仓库(按照数据结构来组织、存储、管理数据)2)集合(数据)3)文件系统(本质)数据库本身不方便直接操作,数据厂商将数据库封装成一个系统(软件),该软件可以提供便捷的操作内部数据库的方式,这种软件叫DBMS。数据库(DB):按照一定结构组织的数据集合,由存储数据的文件组成。数据库管理系统(DBMS):管理软件。2)数据库分类:关系型数据库(RDB:Relationship DataBase):创建在关系模型上的数据库。 关系模型:有明确行和列的二...

2021-10-23 12:44:37 259

机器学习:SVM-人脸识别

机器学习:SVM-人脸识别

2022-12-12

机器学习:基于用户的协同过滤

机器学习:基于用户的协同过滤

2022-11-19

线性回归:最小二乘法求解

线性回归:最小二乘法求解

2022-10-11

安装和配置graphviz

安装和配置graphviz

2022-10-04

数据可视化:pandas

数据可视化:pandas

2022-09-19

数据可视化:seaborn

数据可视化:seaborn

2022-09-19

数据可视化:Matplotlib_2

数据可视化:Matplotlib_2

2022-09-19

数据可视化:matplotlib_1

数据可视化:matplotlib_1

2022-09-17

Anaconda安装指南安装指南安装指南

Anaconda安装指南安装指南安装指南

2022-05-17

MySQL常用函数.pdf

MySQL常用函数.pdf

2021-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除