数据挖掘
文章平均质量分 59
未来世界~未来之星
这个作者很懒,什么都没留下…
展开
-
机器学习项目流程
机器学习项目流程原创 2022-01-12 10:51:06 · 133 阅读 · 0 评论 -
机器学习-人工神经网络
人工神经网络原创 2022-01-12 10:48:19 · 134 阅读 · 0 评论 -
机器学习-特征工程
特征工程原创 2022-01-12 10:46:31 · 199 阅读 · 0 评论 -
机器学习-关联规则
关联规则原创 2022-01-12 10:44:13 · 148 阅读 · 0 评论 -
机器学习-聚类
聚类原创 2022-01-12 10:42:56 · 60 阅读 · 0 评论 -
机器学习-降维
降维原创 2022-01-12 10:36:41 · 95 阅读 · 0 评论 -
机器学习-支持向量机
01 支持向量机概述支持向量机(SupportVectorMachine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalizedlinearclassifier),其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。02 线性可分支持向量机03 线性支持原创 2022-01-12 10:30:06 · 176 阅读 · 0 评论 -
机器学习-集成学习
01 集成学习方法概述Bagging:从训练集中进行子抽样组成每个基模型所需要的自己训练集,对所有基模型预测的结果进行综合产生最终的预测结果:训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果02 AdaBoost和GBDT算法03 XGBoost04 LightGBM...原创 2022-01-11 17:20:11 · 431 阅读 · 0 评论 -
机器学习-决策树
决策树原理⚫决策树:从训练数据中学习得出一个树状结构的模型。⚫决策树属于判别模型。⚫决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。⚫决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。决策树算法是一种归纳分类算法,它通过训练数据学习,挖掘出有用的规则**,用于对新数据进行预测**决策树算法属于监督学习方法决策树归纳的基本算法是贪心算法,自顶向下来构建决原创 2021-12-30 20:20:04 · 1476 阅读 · 0 评论 -
机器学习-KNN算法
距离度量1、欧式距离:欧几里得度量(EuclideanMetric)(也称欧氏距离)是一个通常采用的距离定义,指在mmm维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。简单说就是两点之间直线的距离(二维)公式如下:d(x,y)=∑t(xi−yi)2d(x,y)=\sqrt{\sum_{t}(x_{i}-y_{i})^2}d(x,y)=t∑(xi−yi)22、曼哈顿距离:想象你在城市道路里,要从一个十字路口开车到另原创 2021-12-29 14:49:38 · 891 阅读 · 0 评论 -
机器学习-机器学习实战
数据集划分训练集:帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集:也叫开发集,用来做模型的选择,即模型的最终优化及确定,用来辅助我们的模型的构建,即训练超参数,可选测试集:为测试已经训练好的模型的精确度。数据不平衡的处理:数据不平衡是指数据集中各类样本数量不均衡的情况,常用的处理方法有采用和代价敏感学习代价敏感学习:代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法评价指标正则化、偏差和方差为什么要进行标准化和归一化原创 2021-12-28 15:04:35 · 2240 阅读 · 0 评论 -
机器学习-朴素贝叶斯
01贝叶斯方法01 贝叶斯分类:贝叶斯分类算法的总称,这类算法均以贝叶斯定理为基础02 先验概率:根据以往的经验分析得到的概率,我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率03 后验概率:根据已经发生的事件来分析得到的概率。以P(Y|X)代表假设X成立的情况下观察到Y数据的概率,因为它反映了在看到训练数据X后Y成立的置信度。04 联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。X和Y的联合概率表示为P(X,Y)、P(XY)或者P(X)02朴素贝叶斯原理03朴素贝原创 2021-12-26 21:01:09 · 329 阅读 · 0 评论 -
机器学习-线性学习
一、线性回归1 回归和分类的区别在于要预测的目标是连续值定义:给定由m个属性描述的样本x=(x1,x2…xn),其中xi是x在第i个属性上的取值,线性回归试图学得一个通过属性值的线性组合来进行预测函数:f(x)=w1x1+w2x2+......+wmxm+bf(x)=w_{1}x_{1}+w_{2}x_{2}+......+w_{m}x_{m}+bf(x)=w1x1+w2x2+......+wmxm+b一般的向量的形式是f(x)=wtx+bf(x)=w^{t}x+bf(x)=wtx+原创 2021-12-23 20:19:50 · 568 阅读 · 0 评论 -
机器学习-模型评估
模型评估一、评估方法在学习得到一个比较好的模型之前需要对这个模型进行性能的测试、评估,所以我们需要一个测试集(testing set)来测试模型的好坏,主要测试这个模型对新样本的泛化能力,然后以测试集上的测试误差作为泛化误差的近似值。测试集要和训练集样本尽力互斥给定一个数据集,将数据集拆分成训练集S和测试集T,通常,通常的做法有留出法、交叉验证法、自助法。1 留出法 :直接将数据集划分为两个互斥集合训练/测试集划分要尽可能保持数据分布的一致性一般若干次随机划分、重复实验取平均值训练/原创 2021-12-23 16:54:15 · 419 阅读 · 0 评论 -
HDFS知识点
一、HDFS支持主从结构,NameNode支持多个,DataNode也支持多个二、NameNode主要包含一下文件:fsimage、edits、seen_txid、VERSION三、查看fsimage文件:hdfs oiv -p XML -i 文件名 -o四、secondarynamenode 这个进程就是负责定期把edits中的内容合并到fsimage中,这个合并操作称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内容保存到fsimage文件中五、Block默认是原创 2021-10-15 09:40:54 · 108 阅读 · 0 评论