![](https://img-blog.csdnimg.cn/b252a724c6774f9f882537c4c6e8cc89.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习与大数据分析
文章平均质量分 94
《机器学习实战》与西瓜书+上课+实验
冠long馨
这个作者很懒,什么都没留下…
展开
-
机器学习(三)——决策树
文章目录1. 基本流程2. 划分选择2.1 信息增益(information gain)1. 基本流程(1)定义一般的,一棵决策树包含一个根节点、若干内部节点和叶节点。叶节点:对应决策结果。根节点和中间节点:根据属性测试的结果将所属样本划分到其子节点中。(2)决策树基本算法决策树的生成是一个递归过程。在每次递归中,首先判断是否达到递归返回条件,获得叶节点。选择最优化分节点。根据节点的属性测试结果将包含的样本划分到子节点。以子节点为子树根节点,剔除当前最优划分属性,调用决策树生成函原创 2022-03-20 15:51:40 · 2645 阅读 · 0 评论 -
机器学习(二)——贝叶斯分类器
文章目录1. 贝叶斯决策论1.1 贝叶斯判定准则1. 贝叶斯决策论核心: 将最小化分类错误率转换为最大化先验概率和类条件概率(似然)的乘积。1.1 贝叶斯判定准则(1)期望损失R(ci∣x)R(c_i|x)R(ci∣x)假设有N种可能的类别标记,即γ={c1,c2,⋯ ,cN}\gamma=\{c_1,c_2,\cdots,c_N \}γ={c1,c2,⋯,cN}。λij\lambda_{ij}λij是将真实标记为cjc_jcj的样本误分类为cic_ici所产生的损失。基于后验概率P原创 2022-03-17 20:13:06 · 4779 阅读 · 0 评论 -
机器学习(一)——聚类
文章目录1. 聚类任务2. 性能度量3. 距离计算4. 原型聚类4.1 k-means4.2 LVQ4.3 高斯混合聚类4.4 密度聚类4.5 层次聚类参考资料《机器学习》——周志华1. 聚类任务(1)目的聚类试图将样本划分为若干通常不相交的子集。(2)符号描述假定样本集D={x1,x2,⋯ ,xm}D=\{x_1,x_2,\cdots,x_m\}D={x1,x2,⋯,xm}包含m个样本。每个样本xi={xi1,xi,2,⋯ ,xi,n}x_i=\{x_{i1},x_{i,2},\c原创 2022-03-09 22:04:15 · 1906 阅读 · 0 评论 -
机器学习——时间序列模型
文章目录1. 基本概念2. 基本操作2.1 平稳性检测2.2 白噪声检验3. 模式识别4. 建模步骤平稳性检验白噪声检验模型识别参数计算模型优化模型预测模型名称秒是平滑法削弱短期随机波动对序列的影响,序列插值分布均匀趋势拟合法把时间作为自变量,相应序列观察值作为因变量,简历回归模型组合模型法受长期趋势(T)、季节变动(S)、周期变动(C)和不规则变动(ε)四个因素影响组合模型(1)加法模型:T+S+C+ϵT+S+C+\epsilonT+S+C+ϵ (2)乘法原创 2022-02-24 15:43:51 · 9473 阅读 · 0 评论 -
机器学习——随机森林
文章目录参考资料1. 生成算法2. 随机森林的特点2.1 随机森林的随机性2.2 随机森林的优势3. 随机森林的优化3.1 重要参数3.2 参数选择方法3.3 常见的优化方法参考资料[1] 王小王-123:https://wxw123.blog.csdn.net/article/details/122831189决策树的一个主要缺点在于经常对训练数据过拟合。随机森林是解决这个问题的一种方法.随机森林中树的随机化方法有两种:一种是通过选择用于构造树的数据点,另一种是通过选择每次划分测试的特征。1原创 2022-02-16 20:29:55 · 3593 阅读 · 0 评论 -
Python数据处理——pandas
文章目录0. 基本概念Series(一)创建Series(二)Series的简单操作DataFrame(一)创建DataFrame1. 数据选取2. 加载数据3. 排序与合并4. 数据汇总5. 时间序列0. 基本概念Pandas的数据类型是一张表,可以把Pandas理解为内存型的数据库。import pandas as pdSeries:列DataFrame:表Series(一)创建Series1. 使用列表list创建Series(1)默认列表索引从0 - n-1# 使用列表List原创 2022-02-15 17:02:29 · 3638 阅读 · 0 评论 -
机器学习——统计学三大相关性系数(pearson、spearman、kendall)
应用场景当想要比较变量间变化趋势时,可以先做出散点图从视觉上判断是否存在相关性(趋势一致)。然后再采用相关性分析从统计角度衡量。1. pearson correlation coefficient(皮尔森相关性系数)定义两个变量X,Y的皮尔森相关系数等于它们的协方差cov(X,Y)cov(X,Y)cov(X,Y)除以各自的标准差乘积σXσY\sigma_X \sigma_YσXσYρ(X,Y)=cov(X,Y)σXσY\rho(X,Y)=\frac{cov(X,Y)}{\sigma_X \s原创 2022-02-09 16:47:01 · 2981 阅读 · 0 评论 -
机器学习实战——决策树ID3
文章目录1. 决策树的构造1.1 决策树的一般流程1.2 信息熵(1)定义(2)code:计算信息熵、创建数据集1.3 划分数据集1.4 信息增益(1)定义(2)方法1. 决策树的构造1.1 决策树的一般流程(1)收集数据(2)准备数据(3)分析数据(4)训练算法(5)测试算法(6)使用算法1.2 信息熵(1)定义信息熵:所有类别所有可能值包含的信息期望值H=−∑k=12P(xi)log2P(xi)H=-\sum_{k=1}^{2}P(x_i) log_2P(x_i)H=−k=1原创 2021-10-10 16:47:29 · 165 阅读 · 0 评论 -
机器学习与大数据分析——决策树
文章目录1. 基本流程2. 划分选择2.1 信息熵2.2 经典的属性划分方法2.2.1 信息增益(1)定义(2)划分方法(3)例题2.2.2 增益率2.2.3 基尼指数1. 基本流程(1)叶节点类别的划分① 当前D中所有样本都属于同一类别C时 ⇒ 将Node标记位C类型的叶节点② 当前属性集A为空 ==> 将Node标记为当前样本集合D中数量最多类别的叶节点③ 当前样本集D为空 ⇒ 将Node标记为其父节点样本中数量最多的类的叶节点TreeGenerate(D,A){ //1.生原创 2021-09-27 23:12:49 · 828 阅读 · 0 评论