数据科学
火山锅肥羊卷
请先看blink再发表评论谢谢
拖延症十级患者
没有素质
展开
-
数据科学 | 期末复习 · ⑥机器学习
机器学习一、定义及其关键问题定义使得计算机具备和人类一样的学习技能。给定数据(样本、实例)和一定的学习规则,从数据中获取知识的能力。关键问题:如何实现和优化机器的自我学习。二、目标函数1. 选择学习系统的目的是改进在完成某一类任务T时的性能P。通常把这一目标转换成对某目标函数的学习。近似函数(V)的设计应避免采用“不可操作的方法”——在理论上看起来简单易懂,但其实现极其困难或不符合实际任务需要的方法。可以把机器学习的任务归结为发现目标函数(V)的可操作描述,一般采用函数逼近(F原创 2021-07-07 05:44:01 · 243 阅读 · 0 评论 -
数据科学 | 期末复习 · ⑤噪声/数据脱敏
噪声/数据脱敏一、噪声的概念及处理方法概念:量变量中的随机错误或偏差。存在形式:错误数据、虚假数据、异常数据 (系统出问题导致的异常数据)、指对数据分析结果有重要影响的离群数据或孤立数据。处理方法分箱(Binning):把数据集放入多个箱内,用箱子的均值替换该箱内部的每个数据成员,从而达到降噪目的。聚类(Clustering):通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。回归(Regression):用一个函数(如回归函数)拟合数据来光滑数据。原创 2021-07-07 05:09:19 · 513 阅读 · 0 评论 -
数据科学 | 期末复习 · ④结构化数据vs非结构化数据vs半结构化数据
结构化数据vs非结构化数据vs半结构化数据 类型 含义 本质 结构化数据 直接可以用传统关系数据库存储和管理的数据 先有结构,后有数据 非结构化数据 无法用关系数据库存储和管理的数据 没有(或难以发现)统一结构的数据 半结构化数据 经过一定转换处理后可以用传统关系数据库存储和管理的数据 先有数据,后有结构(较容易发现其结构) ...原创 2021-07-07 05:04:26 · 309 阅读 · 0 评论 -
数据科学 | 期末复习 · ③NoSQL
NoSQL一、NoSQL(包括四种类型数据库)的概念、描述、代表产品及使用场景 名称 概念 描述 代表产品 使用场景 NoSQL Not Only SQL 完善的事务机制和高效的查询机制 Google、FaceBook 互联网企业、传统企业的非关键业务 键值(Key-Value)数据库 键/值对,键是一个字符串对象,值可以是任意类型的数据 查找快速,扩展性好,灵活性好,大量写操作时性能高 百度云数据库(Redis)、GitHu原创 2021-07-07 04:50:06 · 163 阅读 · 0 评论 -
数据科学 | 期末复习 · ②推荐系统/协同过滤
推荐系统/协同过滤一、推荐系统概念、描述概念:大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。描述:通过研究用户的兴趣偏好,进行个性化计算;可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求。二、基于用户和物品的协同过滤概念、内容、对比以及总结概念基于用户:计算用户与用户之间的兴趣相似度。基于物品:通过分析用户的行为记录来计算物品之间的相似度。内容基于用户:①找到和目标用户兴趣相原创 2021-07-07 04:05:00 · 550 阅读 · 0 评论 -
数据科学 | 期末复习 · ①数据处理/ELT/大数据
数据处理/ELT/大数据一、数据处理定义、动机二、 数据准备概念;ETL的概念及应用场景;大数据特征。原创 2021-07-07 03:21:54 · 407 阅读 · 0 评论 -
数据科学 | 期末复习 · 大纲
数据科学大纲1. 数据处理定义、动机;数据准备概念;ETL的概念及应用场景;大数据特征。2. 推荐系统概念、描述;基于用户和物品的协同过滤概念、内容、对比以及总结。3. NoSQL(包括四种类型数据库)的概念、描述、代表产品及使用场景,与关系数据库对比。4. 结构化数据vs非结构化数据vs半结构化数据。5. 噪声的概念及处理方法;数据脱敏的概念及原则。6. 机器学习定义及其关键问题、机器学习中目标函数。7. 神经网络的学习算法有哪些,神经网络如何应用。8. Spark与hadoop的对比,速原创 2021-07-02 22:17:06 · 341 阅读 · 2 评论