数据科学导论 NoSQL

1.什么是NoSQL?

NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。
NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。
优点:
①简单的扩展:典型例子是Cassandra,由于其架构是类似于经典的P2P,所以能通过轻松地添加新的节点来扩展这个集群;②快速的读写:主要例子有Redis,由于其逻辑简单,而且纯内存操作,使得其性能非常出色,单节点每秒可以处理超过10万次读写操作;③低廉的成本:这是大多数分布式数据库共有的特点,因为主要都是开源软件,没有昂贵的License成本;④分布式计算⑤架构的灵活性,半结构化数据⑥没有复杂的关系
缺点:
①不提供对SQL的支持:如果不支持SQL这样的工业标准,将会对用户产生一定的学习和应用迁移成本;②支持的特性不够丰富:现有产品所提供的功能都比较有限,大多数NoSQL数据库都不支持事务,也不像MS SQL Server和Oracle那样能提供各种附加功能,比如BI和报表等;③现有产品的不够成熟:大多数产品都还处于初创期,和关系型数据库几十年的完善不可同日而语;
主要使用场景包括:
①当需要存储和检索大量数据时。②存储的数据之间的关系不是那么重要。③数据随时间变化并且没有结构化。④在数据库级别不需要支持约束和联接。⑤数据持续增长,需要定期扩展数据库以处理数据。

2.学习工具

(1)数据科学:数据科学是指通过挖掘数据、处理数据、分析数据,从而获取数据中潜在的信息和技术。
处理大数据体量的工具:Microsoft Excel、Microsoft Access、SQL、Hadoop、Hive。
处理大数据种类的工具:两个最常见的数据库是SQL和NoSQL。在SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由诸如MongoDB,Cassandra等流行的数据库组成。
处理大数据速度的工具:Apache Kafka(Apache的开源工具、它用于创建实时数据管道。)、Apache Storm、Amazon Kinesis、Apache Flink。
报告和商业智能领域的工具:QlikView、Tableau、Microstrategy、PowerBI、Google Analytics。
预测分析和机器学习工具:Python、R、Apache Spark、Julia、Jupyter Notebooks、SAS、Matlab。
深度学习的通用框架:TensorFlow、PyTorch、Keras和Caffe
人工智能工具:AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot。
(2)分析的工具
Hadoop:Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。
HPCC:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
Storm:Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。
Apache Drill:RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
(3)统计学的工具
SPSS、SAS、Matlab、BMDP、Stata、Minitab、Statistica、SPLM线性模型拟合统计软件程序、CHISS、SASD
(4)机器学习工具
初学者:Knime、Uber Ludwig。适用于模型部署:TensorFlow.js、MLFlow。适用于NLP,计算机视觉和音频:Detectron、SimpleCV、Tesseract OCR。用于强化学习:Open AI Gym、Unity ML Agents。用于数据挖掘:Weka。机器学习正在改变我们与世界互动的方式。 它使我们的生活更轻松,并确保我们建立一个未来世界。

3.看法、前景

(1)引领数据科学与计算智能研究的应用
作为一门实践性强的学科,数据科学的发展离不开实际需求牵引与技术应用驱动。随着感知、计算、通信、控制等技术的发展及综合集成应用,“人-机-物”三元世界高度融合,在线形成了一个网络化的大数据系统,其内部包含了互联网、物联网连接而成的各类数据。这是一个高度复杂、强不确定性、持续动态演化的复杂系统,是“系统的系统”。它既是智慧城市、智能制造、健康医疗等各个领域应用的空间载体,也为国家安全、社会治理、数字经济等领域的科学化、智能化发展提供了重要的数据资源供给。前文已提及,这个现实存在的大数据系统,除了具备高度复杂性、强不确定性等特性,人在回路也是其显著特征。针对这一现实系统的研究与应用,将有可能为数据科学的理论与技术发展带来机遇。针对这一复杂系统的典型场景展开研究,不仅有利于揭示数据的基本规律,也有可能因此而牵引未来新型智能范式的研究。
(2)机器学习
机器学习中各式各样的算法和它们所针对的诸多方面注定了机器学习在生活中的不同方面会被广泛应用。例如当我们要预测某个产品的受众面时,我们就可以使用决策树算法。我们首先选择一定数量的个体,提取他们的信息,按照训练决策树模型的流程进行操作。这样构建好的决策树模型就可以在我们给予新个体时按照新个体的信息预测出他是否为该产品的受众人群。
同时,机器学习还可以被用于风险评估、满意度预测、垃圾信息的过滤乃至人脸识别等方面。
人类的学习能力无疑是胜过机器的,但对于人脑来说,反复地处理数据是枯燥乏味的,同时人类也难以进行庞大信息的分析处理。这便是机器学习的优势和作用,“不会厌倦,不知疲惫”。
曾经业界有一种说法,描述机器学习可以动摇人类的"自由意志,因为大数据时代庞大的信息量可以支持机器做到非常精确的分析。当学习模型构建得足够精准时,机器就可以预测任何个体的行为。机器的预测决定了人的行为,自由意志便不复存在了。这当然是对机器学习"威力"较为夸张的展望。但笔者认为机器学习纵然达不到预知未来,也将在未来对人类的生活产生巨大的影响。
未来的某一天,机器学习可以帮助人类进行预知地震、海啸等,预知现在难以避免的风险。机器学习也会在人类的逐步研究中成为人类的左膀右臂,帮助我们继续进步,渡过难关。

4.给一个数据科学项目

(P18、P77、P80、P93、P123、P143、P173具体案例)
步骤1:定义研究目标并创建项目章程
①研究目标即以明确的、集中的的方式说明任务的目的。了解项目目标和背景对于整个项目的成功至关重要。②创立项目章程:在对业务有很好的了解之后,需要尽可能地可交付成果达成正式的协议。最好将所有这些信息都收集到项目章程中,项目章程要包括这些内容:明确的研究目标、项目任务和背景、如何进行分析、期望使用什么资源、证明这是一个可实现的项目或概念性验证、可交付成果和确保成功的措施、时间表。
步骤2:检索数据
检索数据时从存储在公司内部的数据开始,评估这些数据的相关性和数据质量,如果公司内部的数据不可用,可以查看公司外部的数据。在此过程中,我们要检查数据质量以预防问题发生。
步骤3:数据的清洗、整合以及转换
数据清洗时数据科学过程中的一个子过程,其重点是消除数据中心的错误,从而却表数据的真实和一致。一般的错误有:数值输入错误、冗余空格、不可能出现的数值和合理检查、异常值、处理缺失值、码本偏差、不同的度量单位、不同的聚合级别。另外我们要尽可能早地修改错误。
从不同的数据源整合数据,可以从数据的不同方式、链接表、表添加、使用视图来模拟数据链接和添加、丰富数据的汇总度量来进行整个。
已经清洗并整合了数据,下一个任务就是转换数据,以便采用适合的数据模式来建模。
步骤4:探索性数据分析
此阶段可使用的可视化技术从简单的线图或直方图到更为复杂的图表
步骤5:构建模型
构建模型,以便进行更好的预测,对对象进行分类,或者了解正在建模的系统。包括以下步骤:1)选择建模技术和变量;2)执行模型;3)模型诊断和比较模型。
步骤6:展示结果并在其上搭建应用程序
简而言之,六个步骤:
设置研究目标——在项目章程中定义项目做什么、为什么做及如何做。
检索数据——查找并获取项目所需的数据。该数据可从公司内部和第三方获取。
数据准备——检查和修复数据错误,使用来自其他数据源的数据以丰富数据,并转换数据格式以匹配模型。
数据探索——使用描述性统计和可视化深入研究数据。
展示与自动化——将结果展示给项目相关人,并将分析过程实现工业化,以便能重复使用并与其他工具集成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值