数据科学导论
数据科学导论
烟雨平生9527
没有谁的生活会一直完美,但无论什么时候,都要看着远方,满怀希望就会所向披靡
展开
-
数据科学导论续
在解决了大数据的可靠存储和高效计算后,如何为数据分析人员提供便利日益受到关注,而最便利的分析方式莫过于交互式查询。这几年交互式分析技术发展迅速,目前这一领域知名的平台有十余个,包括Google开发的Dremel和PowerDrill,Facebook开发的Presto, Hadoop服务商Cloudera和HortonWorks分别开发的Impala和Stinger,以及Apache项目Hive、Drill、Tajo、Kylin、MRQL等。原创 2024-04-29 10:40:04 · 1081 阅读 · 0 评论 -
NEFU数据科学导论(九)聚类问题
2.1K-mean算法特点。原创 2023-01-04 11:52:23 · 171 阅读 · 0 评论 -
NEFU数据科学导论(八)线性回归
4.4.1反向转播算法过程。4.4.1反向转播算法概念。3.3标准化 偏回归系数。4.3.1 感知机定义。原创 2023-01-04 02:12:36 · 174 阅读 · 0 评论 -
NEFU数据科学导论(七)分类问题
从数据中学习一一个分类模型或决策函数称为分类器( classifier )分类器对新的输入进行输出的预测,称为分类,输出变量Y取有限个离散值。5.2.3决策树特征选择。3.3.2K值的选择。3.3.3分类决策规则。4.2朴素贝叶斯定理。六、决策树-剪枝算法。原创 2023-01-03 22:13:45 · 194 阅读 · 0 评论 -
NEFU数据科学导论(六)关联规则
如果一个项集中项的数量是k ,则该项集称为。每一个样本可以看作是项的集合。2.1格结构:枚举所有可能的项集。样本的每一个特征X,被称为。2.3候选集的产生和剪枝。三、Apriori算法。原创 2023-01-03 12:57:00 · 182 阅读 · 0 评论 -
NEFU数据科学导论阶段性学习补充(一)
1.数据科学项目处理流程 (1)确定问题 将用户层面的问题抽象化为数据科学层面的问题。(2)制定目标 用户层面与数据科学层面均有涉及,力求明确、具体、可验证、可量化、可实现的目标。(3)搜集数据 (4)探索性数据分析(EDA) 了解数据特性,并形成一些初步假设,为后续建模提供基础与准备。(5)建立模型 基于任务目标,结合EDA结果,选择并构建合适的模型。(6)性能评价 关注三方面问题: ①用什么评价指标?(依据任务选择) ②指标的参照标准是什么?(他人的结果、空模型) ③在什么数据对象上进行评价?(学习的数原创 2023-01-02 10:10:34 · 331 阅读 · 0 评论 -
NEFU数据科学导论(五)特征工程2特征选取
从数据集的全部特征中选取一个特征子集的过程被称为特征选择。4.1启发式搜索策略-贪心算法。3.1.2Pearson相关。3.1常用特征选择统计量。6.2.2基于树的模型。5.3递归信息的消除。原创 2023-01-02 16:55:19 · 127 阅读 · 0 评论 -
NEFU数据科学导论(五)特征工程1特征抽取
当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稀疏。原创 2023-01-02 11:45:20 · 157 阅读 · 1 评论 -
NEFU数据科学导论(四)探索性数据分析
3.2.1非图形化方法。4.2.2计算相关系数。Spearman相关系数。3.2.2图形化方法。4.3.2并排箱型图。原创 2023-01-02 09:11:26 · 152 阅读 · 0 评论 -
NEFU数据科学导论(三)数据预处理
逐步向前选择: 从一个空属性集开始r每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定和值约束为止。同时保持原数据完整性在规约后的数据集上进行分析和挖掘将更有效率。●删除原始数据集中的无关数据、重复数据、平滑噪声数据。复杂的数据分析和挖掘时间很久产生更小的数据集。合并属性:将一些旧数据合并为新属性。5.2.1简单函数交换。●处理缺失值、异常值等。原创 2023-01-02 00:56:47 · 217 阅读 · 0 评论 -
NEFU数据科学导论(二)获取数据1
2.1日志收集系统特征·:高可用性,高可靠性,可扩展性。关系型数据库(mysql,oracle)非关系型数据库(redis)原创 2023-01-01 23:43:03 · 130 阅读 · 0 评论 -
NEFU数据科学导论(一)概述
一、数据分析过程二、具体过程2.1获取数据2.2数据预处理2.3数据探索2.4数据建模2.5数据展示三、知识体系3.1结构体系3.2所需技术3.3描述性分析预测性分析。原创 2023-01-01 14:40:02 · 162 阅读 · 0 评论