熟悉大数据存储基础(实验报告)

【实验与思考】
实验目的
(1) 熟悉大数据存储基础
(2)熟悉大数据技术的基本概念
(3)熟悉开源技术及其商业支援熟悉分布式系统,了解hadoop分布式处理技术
(4)熟悉大数据的数据处理基础知识,了解大数据存储的技术路线
2.工具/准备工作
开始本实验之前,请认真阅读课程的相关内容。
准备一台带有浏览器,能够访问因特网的计算机。
3.实验内容与步骤请查阅相关文献资料,为“大数据”给出一个权威性的定义。
答:"大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产
这个定义来源于:Gartner Group第一家信息技术研究和分析的公司
4.请具体描述大数据的3V
答:①Volume(数量):是大数据的首要特征,数据体量巨大。当今世界需要进行及时处理以提取有用信息的数据数量级已经从TB级别,跃升到PB甚至EB级别
②Variety(种类):数据类型繁多。大数据的挑战不仅是数据量的大,也体现在数据类型的多样化。除了前文提到的网络日志、地理位置信息等具有固定结构的数据之外,还有视频、图片等非结构化数据
③Velocity(速度):处理速度快。信息的价值在于及时,超过特定时限的信息就失去了使用的价值。请查阅相关文献资料,简述“促进大数据发展”的主要因素答::数据可视化使数据解读到了一种更加通俗易懂的阶段,使数据的接收和理解变得更加快速和简单:数据集成治理后使得原来零散无用的数据变得有价值,利用互联网络技术还能进行实时统计分析:人工智能算法可以对数据进行深度挖掘和分析,可以产生更优的解决方案和让原来无解的问题得到解决
(4)请仔细阅读本章课文,熟悉大数据的基本概念,了解分布式系统,熟悉大数据的数据处理基础,在此基础上,撰写一篇500字的小论文,讨论Hadoop对于分布式数据处理的意义。
通过添加简单的服务器实现可扩展性,如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。与传统 RDBMS 和 DWH 的根本区别在于,在 HDFS 中存储数据时不需要模式定义。因此,可以减少预先设计的麻烦。在 Hadoop 中,存储在 HDFS 中的数据在每次处理时都被赋予了意义,因此可以暂时存储它,并在确定处理策略时定义如何处理数据。通过添加简单的服务器实现可扩展性如果分布式处理的 HDFS 容量或资源用完,可以通过添加更多服务器来提高容量和处理性能。添加服务器不需要停止 Hadoop 集群。可以在服务继续的情况下进行操作。此外,可以在不影响应用程序或基础架构设计的情况下获得新的可扩展性。
实验总结
这个实验让我更加了解了大数据所给我们生活各个方面的重要意义,让我们的计算机处理数据更加便捷快速。了解了hadoop开源式的一种对大规模数据进行分布式处理的技术
试验评价(教师)

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据项⽬开发实训 实训要求 利⽤python编写爬⾍程序,从招聘⽹站上爬取数据,将数据存⼊到MongoDB数据库中,将存⼊的数据作⼀定的数据清洗后做数据分析, 利⽤flume采集⽇志进HDFS中,利⽤hive进⾏分析,将hive分析结果利⽤sqoop技术存储到mysql数据库中,并显⽰分析结果,最后将分 析的结果做数据可视化。 搭建爬⾍ 本次选取的⽹站是前程⽆忧⽹,利⽤框架是scrapy,上代码! Wuyou.py 1、爬取字段:职位名称、薪资⽔平、招聘单位、⼯作地点、⼯作经验、学历要求、⼯作内容(岗位职责)、任职要求(技能要求)。 # -*- coding: utf-8 -*- import scrapy from wuyou.items import WuyouItem import re import urllib.parse class WuyouSpider(scrapy.Spider): name = 'Wuyou' allowed_domains = ['51job.com'] # 全国 000000 # web start_urls = [ 'https://search.51job.com/list/000000,000000,0000,00,9,99,web,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99 &jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&special area=00&from=&welfare='] # python # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom =99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&spe cialarea=00&from=&welfare='] # 数据采集 # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E9%2587%2587%25E9%259B%2586,2, 1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&ra dius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='] dius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='] # 数据分析 # start_urls = [ # 'https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2, 1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='] # ⼤数据开发⼯程师 # start_urls = ['https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值