数据分析
文章平均质量分 69
youminglan
欢迎浏览我的文章,如果对你有帮助,欢迎关注+点赞+收藏。
展开
-
机器学习中的七大损失函数详细解读(附代码实现)
什么是损失函数?例子:假设你在山顶,需要下山。你如何决定走哪个方向?我要做的事情如下:环顾四周,看看所有可能的路径拒绝那些上升的路径。这是因为这些路径实际上会消耗更多的体力并使下山任务变得更加艰难最后,走我认为的坡度最大的路径关于我判断我的决策是否好坏的直觉,这正是损失函数能够提供的功能。损失函数将决策映射到其相关成本。决定走上坡的路径将耗费我们的体力和时间。决定走下坡的路径将使我们受益。因此,下坡的成本是更小的。损失函数:在有监督的机器学习算法中,我们希望在学习过程中最小化每个原创 2021-04-27 15:39:09 · 3401 阅读 · 0 评论 -
基于机器学习的数据分析(泰坦尼克数据集)
基于机器学习的泰坦尼克数据集数据分析数据集以及ipynb文件放在了我的GitHub上面:欢迎自取泰坦尼克数据集任务:预测泰坦尼克乘客生存概率数据集:train.csv、test.csv训练集应用于构建您的机器学习模型。 对于训练集,我们为每位乘客提供结果(也称为“特征”)。 您的模型将基于乘客的性别和阶级等“特征”。 您还可以使用特征工程来创建新特征应该使用测试集来查看您的模型在看不见的数据上的表现如何。 对于测试集,我们不提供每位乘客的基本情况。 预测这些结果是您的工作。 对于测试集中原创 2021-05-24 13:26:26 · 1400 阅读 · 0 评论 -
孤立森林(IsolationForest)异常检测
IsolationForest算法它是一种集成算法(类似于随机森林)主要用于挖掘异常(Anomaly)数据,或者说离群点挖掘,总之是在一大堆数据中,找出与其它数据的规律不太符合的数据。该算法不采样任何基于聚类或距离的方法,因此他和那些基于距离的的异常值检测算法有着根本上的不同。孤立森林认定异常值的原则是异常值是少数的和不同的数据。它通常用于网络安全中的攻击检测和流量异常等分析,金融机构则用于挖掘出欺诈行为。...原创 2020-10-14 10:22:20 · 875 阅读 · 0 评论 -
KMS基于聚类的异常检测
基于聚类的异常检测k-means是一种广泛使用的聚类算法。 它创建了k个具有相似特性的数据组。 不属于这些组的数据实例可能会被标记为异常。基于聚类的异常检测中的假设是,如果我们对数据进行聚类,则正常数据将属于聚类,而异常将不属于任何聚类或属于小聚类。 我们使用以下步骤来查找和可视化异常值。...原创 2020-10-14 10:21:23 · 802 阅读 · 0 评论 -
比赛笔记
matplotlibmatplotlib 是为 python 提供强大绘图功能的第三方库.rc它的配置文件即 .rc 文件,为 matplotlib 输出图形的几乎所有属性指定了永久的默认值。(图形属性包括包括窗体大小、每英寸的点数、线条宽度、颜色、样式、坐标轴、坐标和网络属性、文本、字体等)如import matplotlib as mplmpl.rcParams['lines.color'] = 'blue' # 此后的线条颜色为蓝色plt.rcParams['font.sans-seri原创 2020-10-14 10:13:16 · 99 阅读 · 0 评论 -
Hadoop分布式文件系统——HDFS介绍
Hadoop分布式文件系统——HDFS介绍1、介绍HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。2、HDFS 设计原理2.1 HDFS 架构HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:NameNode : 负责执行有关文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责集群元数据的存储,记录着文件中转载 2020-09-30 14:37:08 · 1252 阅读 · 0 评论 -
数据挖掘的一般流程
数据挖掘的一般过程@sonics最近有几场比赛要参加,需要提前了解一些数据挖掘的知识。下面是关于数据挖掘的流程:1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和一致性,包括数据清理、数据集成、数据规约和数据变换方法。(1)数据清理忽略元祖、人工填写缺失值、使用属性的中心度量填充、给定同一类所有样本的属性均值或中位数填充、最可能的值填充(2原创 2020-09-24 17:13:02 · 2895 阅读 · 0 评论