昌航小马子-CSDN博客

原创数据可视化实训六

2024-06-09 20:52:03 79

原创基于Hadoop的云计算与大数据处理（Spark Streaming WordCount）

使用Spark Streaming编写的程序与编写Spark程序非常相似，在Spark程序中，主要通过操作RDD（Resilient Distributed Datasets弹性分布式数据集）提供的接口，如map、reduce、filter等，实现数据的批处理。7. 在实验中，学会了使用Spark Streaming进行WordCount实验的流程，这是Spark Streaming的入门应用，也是理解Spark Streaming基本原理的一种方式。对接收到数据，放置在一行，并对数据以空格分隔。

2023-12-20 16:46:04 999 1

原创基于Hadoop的云计算与大数据处理技术

对于Spark中的API来说，它支持的语言有Scala、Java和Python，由于Scala是Spark的原生语言，各种新特性肯定是Scala最先支持的，Scala语言的优势在于语法丰富且代码简洁，开发效率高。Spark的核心就是RDD，所有在RDD上的操作会被运行在Cluster上，Driver程序启动很多Workers，Workers在（分布式）文件系统中读取数据后转化为RDD（弹性分布式数据集），然后对RDD在内存中进行缓存和计算。它提供了与Scala相似的功能，但是更接近Java的语法和习惯。

2023-12-20 16:42:38 1100 1

原创 JAVA语言（抽象类与接口）

（3）设计一个类UseCompute，类中含有方法：public void useCom(Compute com, int one, int two)，此方法能够用传递过来的对象调用computer方法完成运算，并输出运算的结果；（1）定义一个接口Compute含有一个方法int computer(int n, int m)；（4）设计一个主类Test，调用UseCompute中的方法useCom来完成加减乘除运算。2. 按照题目要求，设计完整的UML类图，并编写相应Java程序。

2023-12-20 16:37:36 845 1

原创 JAVA语言（继承与多态）

使用面向对象的多态性模仿会员卡消费系统，设计会员卡类，可派生不同的会员卡类型，当使用不同的会员卡消费时其折扣不同。如一般会员卡消费打9折；VIP会员卡打7折；超级VIP卡打5折。子类继承了所有的属性和方法，非私有的属性和方法可以在子类中直接访问，但是私有的属性和方法不能在子类直接访问，要通过公共的方法去访问。输入应消费的金额->选择相应的会员卡->显示实际的应付金额和消费状态信息。简要介绍你在实验中使用到的继承、多态、封装等机制的使用注意事项？1. 安装JDK、Java集成式开发环境，并配置相应开发环境；

2023-12-20 16:35:53 914 1

原创 Java语言（类与对象）

(3) 编写一个录取类，它的一个方法用于判断学生是否符合录取条件。在该类的main()方法中，建立若干个学生对象，对符合录取条件的学生，输出其信息及“被录取”。(2) 编写一个学生类，它的成员变量有考生的name(姓名)、id(考号)、total(综合成绩)、sports(体育成绩)。(3) 设计一个表示圆柱体的类Cylinder，它继承自类Circle，还包含有表示圆柱体高的protected类型的成员变量。静态成员变量：静态成员变量是类的属性，只要是这个类的对象，这些对象的静态成员变量都是一样的。

2023-12-20 16:34:16 1040 1

原创基于Java环境下的程序控制结构

简要介绍你在实验中使用到的函数定义、while-break循环、if-else控制语句等关键词的使用注意事项？1. 安装JDK、Java集成式开发环境，并配置相应开发环境；2. 按照题目要求，编写相应Java程序。if else 是一个循环结构的语句。(请附上详细代码、运行截图等内容)

2023-12-20 16:30:14 898 1

原创数据采集与处理技术（数据管理）

在这个阶段，你需要考虑如何将数据从源系统移动到目标系统，并确保数据的一致性和可靠性。你需要处理迁移过程中可能出现的异常情况，以确保数据的完整性和可用性。在这个阶段，你需要了解迁移的原因、需要迁移的数据量、目标系统的能力、数据安全和完整性等因素。在这个阶段，你需要验证迁移后的数据是否符合预期，包括数据的正确性、完整性和可靠性等。在这个阶段，你需要清理数据，确保数据的质量和一致性，同时还需要备份数据以确保数据的安全。在这个阶段，你需要完成迁移过程的文档记录和总结，以便在日后进行维护和升级。

2023-12-20 16:24:47 904 1

原创数据采集与处理技术（数据清洗）

利用众数、中位数、均值、聚类分析等方法，实现对葡萄牙银行电话营销数据（http://archive.ics.uci.edu/ml/datasets/Bank+Marketing#）进行有效清洗。对于非数值类型的列进行标签编码LabelEncoder进行转化为数值，然后对于所以列进行归一化，然后通过计算样本之间距离（距离计算不及时job列和age列数据），之后选择最近的样本作为填充值。平均数：2.567592502670681。平均数：3.621290812858114。数值型列:emp.var.rate。

2023-12-20 16:21:58 967 1

原创数据采集与处理技术（如何掌握Kmeans聚类算法的全过程）

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。利用KMeans聚类算法对新闻文章进行聚类，并观察聚类个数K和初始类中心点对聚类效果的影响。简要介绍在Kmeans聚类算法中，聚类个数K、初始类中心、迭代次数等因素对聚类效果的影响？6. 重复第4、5步，直至各个类内的文章趋于稳定。本次分类总样本数目为。

2023-12-20 16:18:47 1469 1

原创基于大数据环境下的数据采集与处理技术

2. 建立相关爬虫项目，从不同新闻网站下载热点新闻文章。(请附上详细代码、爬虫下载截图、运行效果等内容)简要介绍你在实验中使用到的各爬虫模块主要功能、爬虫下载的主要步骤、常见的反爬虫机制等？如果目标网站没有反爬的话，我们就很容易的爬取我们想要的数据，但是对于大型网站。1. 安装Python、PyCharm开发环境，并下载爬虫所需的开发模块；对异于真实用户的访问进行识别并进行拦截。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。就会有相应的反爬机制，即。

2023-12-20 16:15:13 1644 1

2301_77118579的博客