代码欢乐豆-CSDN博客

原创 NoSQL大数据存储技术测试（1）绪论

第1题以下不属于云计算部署模型的是（）公有云私有云企业云（我的答案）混合云第2题以下不属于目前典型云计算服务模型的是（）软件即服务系统即服务（我的答案）平台即服务基础设施即服务第3题下列关于云计算的说法错误的是（）可以提供按需使用、按量计费的服务可以满足用户的弹性使用需求用户可以在任意时间和地点通过网络获取所需的资源主要基于非虚拟化资源池（我的答案）第4题NoSQL的典型应用场景不包括（）。海量日志数据特殊的或复杂的数据模型的简化处理。

2024-11-09 21:35:25 319

原创数据库大题解题方法（三）

2024-11-09 14:52:02 307

原创数据库大题解题方法（二）

2024-11-08 22:08:36 283

原创数据库大题解题方法（一）

2024-11-08 22:05:42 253

原创数据库期末考试简答题

数据库中的数据按一定的数据模型组织、描述和储存，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。①关系模式：关系的描述称为关系模式，它可以形式化地表示为：R（U，D，Dom，F），其中R为关系名，U为组成该关系的属性名集合，D为属性组U中属性所来自的域，Dom为属性向域的映射集合，F为属性间数据的依赖关系集合。①外模式，亦称子模式或用户模式，是数据库用户（包括应用程序员和最终用户）能够看见和使用的局部数据的逻辑结构和特征的描述，是数据库用户的数据视图，是与某一应用有关的数据的逻辑表示。

2024-11-07 22:13:37 1009

原创 Operating Systems Basic Concepts and Principles

4 在请求分页系统的硬件支持中，当所要访问的页面不在内存时，由缺页中断机构实现。3 在死锁的条件中，不剥夺条件是指进程已获得的资源只能在使用完时由自己释放。5 按设备的固有属性分类中，独占设备属于临界资源，即进程临界区访问的资源。3 在死锁的条件中，互斥条件是指在一段时间内，某资源只能被一个进程占用。3 现代操作系统产生死锁的条件中，互斥条件是不能被摒弃来预防死锁的发生。3 资源的按序分配法是摒弃死锁条件中的环路等待条件来预防死锁的发生。5 在假脱机打印机系统中，按设备的固有属性分类，实现了虚拟设备功能。

2024-11-07 16:01:32 425

原创数据采集之scrapy框架2

本博文使用自动化爬虫框架完成微信开放社区文档信息的爬取（重点理解。虫构建过程，能够分析。

2024-11-06 15:03:26 148

原创数据采集之scrapy框架

本博文使用基本框架完成搜房网或者其他网站的数据爬取（重点理解。框架的构建过程，使用回调函数，完成数据采集和数据处理）

2024-11-06 14:58:50 280

原创数据采集之超级鹰验证码识别及模拟登录

本博文爬取实例古诗文网，若网址发生变化，只需要修改对应代码网址即可。

2024-11-05 19:52:47 308

原创数据采集之tesseract-ocr验证码识别及模拟登录

本博文爬取实例古诗文网，若网址发生变化，只需要修改对应代码网址即可。

2024-11-05 19:50:51 277

原创数据采集之selenium模拟登录

本博文爬取实例为内部网站，请sduter使用本人账号替换*********（学号），***（姓名）进行登录。

2024-11-04 11:03:15 514

原创数据采集之session模拟登录

本博文爬取实例为内部网站，请sduter使用本人账号替换*********（学号），***（姓名）进行登。

2024-11-04 10:58:20 279

原创数据采集之Cookijar模拟登录

本博文爬取实例为内部网站，请sduter使用本人账号替换*********（学号），***（姓名）进行登录。

2024-11-03 15:38:22 216

原创数据采集之京东商品爬取

本博文爬取实例京东网站，若网站结构发生变化，替换对应xpath即可。

2024-11-03 15:29:58 1231

原创数据采集之天气爬取

，网址会有变化，直接替换代码内网址即可。本博文爬取实例天气网（

2024-11-02 21:12:42 337

原创数据采集之电影爬取

，网址会有变化，直接替换代码内网址即可。本博文爬取实例电影天堂网（

2024-11-02 21:10:32 335

原创 Java期末考试

基本数据类型：逻辑类型（boolean）、整数类型（int，byte，short，long）、浮点类型（float，double）、字符类型（char）二维数组 int[][] a=new int[8][9];-------数组长度 a.length=8, a[0].length=9。6、1&1=1，其余为0；9、继承可以重写方法，重写会覆盖原来的方法，通过调用super（）来调用父类的方法。引用数据类型：类（class）接口（interface）数组 [ ]

2024-11-01 20:26:07 1014

原创大数据导论第九章作业

从专业技能的角度，我们需要掌握：Linux系统及相关软件的安装和使用方法、JDK的安装、Hadoop的安装和基本使用方法、Spark的安装和基本使用方法、MySQL数据库的安装和基本使用方法、开发工具InteliJ IDEA的安装和使用方法、Scala程序开发方法、软件项目管理工具Maven的使用方法、ETL工具Kettle的安装和使用方法、Spark SQL程序的开发方法、ALS算法的使用方法、Spark MLlib程序开发方法、Node.js的安装和使用Node.js开发动态网页的方法等。

2024-11-01 20:22:25 599

原创大数据导论第八章作业

答：数据通常是枯燥乏味的，利用数据可视化平台，枯燥乏味的数据可转变为丰富生动的视觉效果，不仅有助于简化人们的分析过程，还可在很大程度上提高分析数据的效率。数据可视化技术的基本思想是将数据库中每一个数据项以单个图元素来表示，用大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，使人们可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。入门级工具，信息图表工具，地图工具，时间线工具和高级分析工具等。地图工具：Leaflet;入门级工具：Excel,office;信息图表工具：D3;

2024-10-31 16:30:10 809

原创大数据导论第七章作业

为了方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析，Spark提供了一个称为Spark R的编程接口，使得一般应用领域的数据分析人员，可以在R语言的环境里方便地使用Spark的并行化编程接口和强大的计算能力。此外,Spark Streaming只能实现秒级的实时响应，而Structured Streaming由于采用了全新的设计方式，采用微批处理模型时可以实现100ms级别的实时响应，采用持续处理模型时可以实现毫秒级的实时响应。具体来说，MLlib主要包括以下几方面的内容。

2024-10-31 16:29:25 658

原创大数据导论第六章作业

存储时，数据按照行键的字典序存储。MapReduce是一种编程模型，用于大规模数据集(大于1 TB)的并行运算，它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到两个函数一Map和Reduce上，并且允许用户在不了解分布式系统底层细节的情况下开发并行应用程序，并将其运行于廉价的计算机集群上，完成海量数据的处理。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的数据库，它极大的增强了数据库的存储能力，避免了人员、硬件、软件的重复配置，让软硬件升级变得更加容易，同时虚拟化了许多后端功能。

2024-10-30 18:39:35 395

原创大数据导论第五章作业

其次,Z-Score消除了数据具有的实际意义,A的Z—Score与B的Z-Score与他们各自的分数不再有关系,因此,Z—Score 的结果只能用于比较数据间的结果,探究数据的真实意义还需要还原数据。常用基于内容的抓取策略、基于链接结构评价的抓取策略、基于增强学习的抓取策略和基于语境图的抓取策略。答：数据脱敏不仅需要执行“数据漂白",抹去数据中的敏感内容,同时需要保持原有的数据特征,业务规则和数据关联性,保证开发、测试以及大数据类业务不会受到脱敏的影响,达成脱敏前后的数据一致性和有效性,具体如下。

2024-10-30 18:38:29 386

原创大数据导论第四章作业

以视频监控分析为例，大数据技术可以支持在海量视频数据中实现视频图像统转码、摘要处理、视频剪辑、视频特征提取、图像清晰化处理、视频图像模糊查询、快速检索和精准定位等功能，同时深人挖掘海量视频监控数据背后的有价值信息，快速反馈信息，以辅助决策判断，从而让安保人员从繁重的人工视频回溯工作中解脱出来，不需要投入大量精力从大量视频中低效查看相关事件线索，可在很大程度上提高视频分析效率，缩短视频分析时间。随着数据科学的不断发展，近年来，人们开始把大数据应用于森林监视，其中，谷歌森林监视就是一项具有代表性的研究成果。

2024-10-29 18:42:50 345

原创大数据导论第三章作业

由于数据采集、数据存储和处理能力的限制，在科学分析中，通常采用抽样的方法，即从全集数据中抽取一部分样本数据，通过对样本数据的分析，来推断全集数据的总体特征。②大数据加大隐私泄露风险。数据分享和大数据技术应用，不仅可以有效推动政府各部门在公共活动中实现协同治理，提高政府决策的水平，也能够充分调动各方的积极性来完成社会事务，实现社会治理机制的创新，给公众的生活带来便利，比如缓解交通压力、保障食品安全、解决环境污染等。一方面，因为大数据的量大，而且包含了复杂和敏感的数据，大数据对于潜在的攻击者具有较大的吸引力；

2024-10-29 18:41:56 506

原创大数据导论第二章作业

当P2P网络中的某个节点接收到一条交易记录时，他会传播给相邻的节点，然后相邻的节点再传播给其他相邻的节点，那么通过这样一个P2P网络，这个数据会瞬间传遍全球。物联网中存在各种异构网络和不同的类型，产生了大量不同来源的不同类型数据，如何实现有效整合、处理和挖掘是物联网处理层需要解决的关键技术。公有云是面向所有用户提供服务，私有云只为特定用户提供服务，混合云综合了公有云和私有云的特点。第一个特性：很难找到两个不同的x和y，使得h(x)=h(y)，也就是说，通过两个不同的输入，很难找到对应的、相同的输出。

2024-10-28 19:12:39 528

空空如也

空空如也