自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据可视化实训六

2024-06-09 20:52:03 79

原创 基于Hadoop的云计算与大数据处理(Spark Streaming WordCount)

使用Spark Streaming编写的程序与编写Spark程序非常相似,在Spark程序中,主要通过操作RDD(Resilient Distributed Datasets弹性分布式数据集)提供的接口,如map、reduce、filter等,实现数据的批处理。7. 在实验中,学会了使用Spark Streaming进行WordCount实验的流程,这是Spark Streaming的入门应用,也是理解Spark Streaming基本原理的一种方式。对接收到数据,放置在一行,并对数据以空格分隔。

2023-12-20 16:46:04 999 1

原创 基于Hadoop的云计算与大数据处理技术

对于Spark中的API来说,它支持的语言有Scala、Java和Python,由于Scala是Spark的原生语言,各种新特性肯定是Scala最先支持的,Scala语言的优势在于语法丰富且代码简洁,开发效率高。Spark的核心就是RDD,所有在RDD上的操作会被运行在Cluster上,Driver程序启动很多Workers,Workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布式数据集),然后对RDD在内存中进行缓存和计算。它提供了与Scala相似的功能,但是更接近Java的语法和习惯。

2023-12-20 16:42:38 1100 1

原创 JAVA语言(抽象类与接口)

(3)设计一个类UseCompute,类中含有方法:public void useCom(Compute com, int one, int two),此方法能够用传递过来的对象调用computer方法完成运算,并输出运算的结果;(1)定义一个接口Compute含有一个方法int computer(int n, int m);(4)设计一个主类Test,调用UseCompute中的方法useCom来完成加减乘除运算。2. 按照题目要求,设计完整的UML类图,并编写相应Java程序。

2023-12-20 16:37:36 845 1

原创 JAVA语言(继承与多态)

使用面向对象的多态性模仿会员卡消费系统,设计会员卡类,可派生不同的会员卡类型,当使用不同的会员卡消费时其折扣不同。如一般会员卡消费打9折;VIP会员卡打7折;超级VIP卡打5折。子类继承了所有的属性和方法,非私有的属性和方法可以在子类中直接访问,但是私有的属性和方法不能在子类直接访问,要通过公共的方法去访问。输入应消费的金额->选择相应的会员卡->显示实际的应付金额和消费状态信息。简要介绍你在实验中使用到的继承、多态、封装等机制的使用注意事项?1. 安装JDK、Java集成式开发环境,并配置相应开发环境;

2023-12-20 16:35:53 914 1

原创 Java语言(类与对象)

(3) 编写一个录取类,它的一个方法用于判断学生是否符合录取条件。在该类的main()方法中,建立若干个学生对象,对符合录取条件的学生,输出其信息及“被录取”。(2) 编写一个学生类,它的成员变量有考生的name(姓名)、id(考号)、total(综合成绩)、sports(体育成绩)。(3) 设计一个表示圆柱体的类Cylinder,它继承自类Circle,还包含有表示圆柱体高的protected类型的成员变量。静态成员变量:静态成员变量是类的属性,只要是这个类的对象,这些对象的静态成员变量都是一样的。

2023-12-20 16:34:16 1040 1

原创 基于Java环境下的程序控制结构

简要介绍你在实验中使用到的函数定义、while-break循环、if-else控制语句等关键词的使用注意事项?1. 安装JDK、Java集成式开发环境,并配置相应开发环境;2. 按照题目要求,编写相应Java程序。if else 是一个循环结构的语句。(请附上详细代码、运行截图等内容)

2023-12-20 16:30:14 898 1

原创 数据采集与处理技术(数据管理)

在这个阶段,你需要考虑如何将数据从源系统移动到目标系统,并确保数据的一致性和可靠性。你需要处理迁移过程中可能出现的异常情况,以确保数据的完整性和可用性。在这个阶段,你需要了解迁移的原因、需要迁移的数据量、目标系统的能力、数据安全和完整性等因素。在这个阶段,你需要验证迁移后的数据是否符合预期,包括数据的正确性、完整性和可靠性等。在这个阶段,你需要清理数据,确保数据的质量和一致性,同时还需要备份数据以确保数据的安全。在这个阶段,你需要完成迁移过程的文档记录和总结,以便在日后进行维护和升级。

2023-12-20 16:24:47 904 1

原创 数据采集与处理技术(数据清洗)

利用众数、中位数、均值、聚类分析等方法,实现对葡萄牙银行电话营销数据(http://archive.ics.uci.edu/ml/datasets/Bank+Marketing#)进行有效清洗。对于非数值类型的列进行标签编码LabelEncoder进行转化为数值,然后对于所以列进行归一化,然后通过计算样本之间距离(距离计算不及时job列和age列数据),之后选择最近的样本作为填充值。平均数:2.567592502670681。平均数:3.621290812858114。数值型列:emp.var.rate。

2023-12-20 16:21:58 967 1

原创 数据采集与处理技术(如何掌握Kmeans聚类算法的全过程)

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。利用KMeans聚类算法对新闻文章进行聚类,并观察聚类个数K和初始类中心点对聚类效果的影响。简要介绍在Kmeans聚类算法中,聚类个数K、初始类中心、迭代次数等因素对聚类效果的影响?6. 重复第4、5步,直至各个类内的文章趋于稳定。本次分类总样本数目为。

2023-12-20 16:18:47 1469 1

原创 基于大数据环境下的数据采集与处理技术

2. 建立相关爬虫项目,从不同新闻网站下载热点新闻文章。(请附上详细代码、爬虫下载截图、运行效果等内容)简要介绍你在实验中使用到的各爬虫模块主要功能、爬虫下载的主要步骤、常见的反爬虫机制等?如果目标网站没有反爬的话,我们就很容易的爬取我们想要的数据,但是对于大型网站。1. 安装Python、PyCharm开发环境,并下载爬虫所需的开发模块;对异于真实用户的访问进行识别并进行拦截。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。就会有相应的反爬机制,即。

2023-12-20 16:15:13 1644 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除