大数据时代的发展

最新推荐文章于 2024-09-16 11:16:36 发布

qq_41421229

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量1.1k

点赞数

文章标签： hadoop 大数据 hbase 数据结构

本文链接：https://blog.csdn.net/qq_41421229/article/details/127152637

版权

今天所产生的数据比过去几年所产生的数据大好几个数量级，企业有了能够轻松访问和分析数据以提高性能的新机会，如何从数据中获取价值显得尤为重要，也是大数据相关技术急需要解决的问题。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。数据建模不仅仅是任意组织数据结构和关系，还必须与最终用户的需求和问题联系起来，并提供指导，帮助确保正确的数据正确使用正确的方法获得正确的结果.生命科学作为21世纪最重要的科学分支之一，高性能计算在生命科学的研究和发展中起了非常重要的作用。目前，高性能计算在生命科学领域中的应用主要包括：基因测序，分子动力，虚拟筛选。而对于高性能计算在生命科学领域的主要作用是对实验仪器测量数据处理和分析，分子动力学模拟以及计算机辅助药物设计类计算。随着人类基因组计划的相继完成，以及各种模式的生物基因组计划的实施，基因测序技术也在不断发展。同时，关于生物基因组序列的海量数据不断涌现，因此就需要用通过高性能计算对这些数据加以整理和存储。实验仪器测量数据处理和分析，首先通过实验仪器对生物分子进行测量，使用一些后处理软件对原始的大量数据进行处理和分析，然后对序列数据进行同源及相似性搜寻、比对、序列分析、遗传发育分析等，应用软件数量巨大，各种软件在同源性分析算法上各有特点，最常用的有BLAST，FASTA，HMMER，ClustalW，DNASTAR，PHYLIP，PAML，PAUP，T-Coffee，EMBOSS等。有对蛋白质分子进行研究的三维冷冻电镜方法及结构解析软件EMAN，SPIDER;利用Xray方法测量用软件CCP4、ARP/wARP，CNS进行解析等;质谱仪测序以及后续处理软件tandom(X!tandom)等。分子动力学模拟是在原子水平上利用牛顿经典力学方程模拟分子的运动，随着高性能计算能力的提高，分子动力学模拟已经成为生物大分子理论研究的有力工具，目前，用于分子动力学模拟的主要软件有AMBER ，Charmm，NAMD，Gromacs等，这类应用非常适合大规模并行。计算机辅助药物设计是根据受体的结构是否已知，分为直接药物设计和间接药物设计。通过分子模拟软件分析结合部位的结构性质。然后运用数据库搜寻或者全新药物分子设计技术识别得到分子形状和理化性质与受体作用位点相匹配的分子，合成并测试这些分子的生物活性，经过几轮的循环，就可以发现新的先导化合物。因此，计算机辅助药物设计大致包括活性点位分析法，数据库搜寻，全新药物设计。根据计算方法的不同分刚性对接、半柔性对接和柔性对接，应用软件有DOCK ，AutoDock，FlexX，Discovery Studio，ZDOCK，RDOCK，MORDOR等。对海量研究数据的生命科学领域计算，北鲲云可以提供完整的行业解决方案。不仅如此，北鲲云超算平台预安装了300多款软件，研究人员在北鲲云超算平台可以根据自身的研究需要，随时启用已经安装好的软件，方便快捷。北鲲云超算平台采用公有云计算资源，最新的CPU及GPU资源，最高可申请100000CPU核心,满足不同应用软件对高性能计算资源的不同需求。

目标

1.掌握大数据建模分析与使用方法。

2.掌握大数据平台技术架构。

3.掌握国内外主流的大数据分析与BI商业智能分析解决方案。

4.掌握大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用。

5.掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用。

6.掌握基于Hadoop大数据平台分布式系统平台应用，以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

7.掌握常见的机器学习算法。

计划

第一天

一、大数据概述

1.大数据及特点分析

2.大数据关健技术

3.大数据计算模式

4.大数据应用实例

二、大数据处理架构Hadoop

1.Hadoop项目结构

2.Hadoop安装与使用

3.Hadoop集群的部署与使用

4.Hadoop 代表性组件

1.Hadoop Single Node Cluster

2. Hadoop Multi Node Cluster

三、分布式文件系统HDFS

1.HDFS体系结构

2.HDFS存储

3.HDFS数据读写过程

1.创建与查看HDFS目录

2.从本地计算复制文件到HDFS

3.将HDFS文件复制到本地计算机

4.复制与删除HDFS文件

5.Hadoop HDFS Web浏览HDFS

四、分布式数据库HBase

1.HBase访问接口

2.HBase数据类型

3.HBase实现原理

4.HBase运行机制

5.HBase应用

第二天

五、MapReduce

1.MapReduce体系结构

2.MapReduce工作流程

3.资源管理调度框架YARN

4.MapReduce应用

六、Spark

1.Spark生态与运行架构

2.Spark SQL

3.Spark部署与应用方式

1. Spark 安

2.本地运行pyspark程序

3.在Hadoop YARN 运行pyspark

4.Spark Web UI

七、IPython Notebook运行Python Spark程序

1.Anaconda

2.IPython Notebook使用Spark

3.使用IPython Notebook在Hadoop YARN模式运行

1.在不同模式运行IPython Notebook运行Python Spark命令

2.Python 程序开发

八、Python Spark集成开发环境

1.Python Spark集成开发环境部署配置

2.Spark数据分析库MLlib的开发部署 Spark MLlib应用程序示例

第三天

九、Python Spark决策树二分类与多分类

1.决策树原理

2.大数据问题

3.决策树二分类

4.决策树多分类 1.搜集数据

2.数据准备：导入并转换数据、提取特征字段、提取标签

3. Python Spark建模，训练模型

4.预测数据

5.评估数据，给出评价指标并得到评估结果

十、Python Spark支持向量机

1.支持向量机SVM 原理与算法

2.Python Spark SVM程序设计

1.数据准备

2.建立SVM模型，训练模型

3.评估参数并找出最优参数

4.根据模型进行预测

十一、Python Spark 贝叶斯模型

1.朴素贝叶斯模型原理

2.Python Spark贝叶斯模型程序设计

1.建模贝叶斯模型，并进行对参数估计

2.训练模型，得到最优参数

3.根据模型进行预测

十二、Python Spark逻辑回归

1.逻辑回归原理

2.Python Spark逻辑回归程序设计

1.Python Spark逻辑回归建模

2.根据模型进行分类

第四天

十三、Python Spark回归分析

1.大数据分析

2.数据集介绍

3.Python Spark回归程序设计

1.数据准备

2.训练回归模型

3.建立评估指标

4.训练回归模型，并找到最优参数

5.根据模型进行预测

十四、Spark ML Pipeline 机器学习流程分类

1.机器学习流程组件：StringIndexer、OneHotEncoder、VectorAssembler等

2.使用Spark ML Pipeline 机器学习流程分类程序设计

1.数据准备

2.建立机器学习Pipeline流程

3.使用Pipeline流程训练

4.使用PipelineModel预测

5.评估模型准备率

十五、Python Spark 创建推荐引擎

1.推荐算法

2.推荐引擎大数据分析使用场景

3.推荐引擎设计

1.搜索数据

2.准备数据

3.训练模型

4.使用模型进行推荐

十六、项目实践

1.日志分析系统与日志挖掘项目实践

a、Hadoop，Spark，ELK技术构建日志数据仓库

b、互联网微博日志分析系统项目

1.推荐系统项目实践

a、电影数据分析与个性化推荐关联分析项目

人工智能是产业变革的基石，对于不同行业和场景的智能化改造将成为未来趋势。安防金融、医疗、汽车制造业、智能家居、净水器维修等领域都是人工智能的发展方向。未来几年人工智能有望在语音识别、工业、辅助医疗、服务机器人、无人驾驶、虚拟现实等前沿领域崭露头角，千亿级市场盛宴将开启。由中国人工智能学会、北京工业大学主办的中国人工智能院长与名师论坛在线举行。国务院参事、中国人工智能学会理事长、中国工程院院士戴琼海，中国人工智能学会常务理事、北京工业大学副校长乔俊飞出席开幕式并代表主办单位致辞。中国人工智能学会副理事长、中科院自动化所副所长刘成林担任主论坛主持嘉宾。《蓝皮书》认为，认知是人类智能的重要表现，其基石和燃料是规范化的知识（如概念、属性和关系等），基于规范化知识就可形成对学习对象的理解和分类。如13世纪末雷蒙·卢尔提出的“知识树”和莱布尼兹提出的“人类知识字母表”就是对知识进行规范的一种努力。对人工智能所涵盖内容分类越细致周全，明晰不同内容之间的边界和联系，对人工智能的理解就越清晰纯净。为此，需要对人工智能不同知识概念有序组织起来，形成规范化的图景，由此由点到线、由线到面、由面到体，明晰人工智能宏大复杂的知识网络，《蓝皮书》即为实现这一目标的重要尝试，对人工智能知识点全景化凝练。《蓝皮书》回顾了人工智能于1956年在达特茅斯启航后，因为英国政府20世纪70年代发布“莱特希尔（Lighthill）报告”和20世纪80年代神经网络模型能力受限，使得当时人们对人工智能研究产生了质疑，人工智能发展随即两次先后坠入了低谷。人工智能两次进入发展冬天的本质原因在于人们对人工智能期望过大以及对新生事物的未来发展前景难以预测，当时人工智能理论和方法未能产生所承诺的重大影响又进一步影响了人工智能的研究环境。回顾这些发展历程中的主要挫折，不难发现，当与信息环境的变化趋势不符时，往往就会导致失败。促使人工智能变化的动力既有来自人工智能研究的内部驱动力，也有来自信息环境与社会目标的外部驱动力，两者都很重要，但相比之下，往往后者的动力更加强大。作为一种使能技术，人工智能天然具有与其他学科研究进行交叉的秉性，从这个意义而言，人工智能可谓“至小有内涵，至大可交叉”。因此，人工智能研究本身以及人工智能人才培养需要融合来自神经科学、脑科学、物理学、数学、电子工程、生物学、语言学、认知学等方面的知识，从而使得研究本身能够解决更复杂问题、所培养人才能够应对复杂问题挑战。此外，《蓝皮书》还对计算机课程体系发展中人工智能知识点演变脉络进行了梳理，展示了人工智能知识体系从强调程序设计、到算法研究以及功能实现的变化过程。