自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 数据导入与预处理

帮助从原有庞大数据集中获得精简的数据集合,使该精简的数据集保持原有数据集的完整性,这样精简的数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与原有数据集所获得的结果基本相同。脏数据:由于重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据(越早处理脏数据,数据清理操作越简单)造成不准确原因:数据收集设备故障,数据输入错误,数据传输过程出错,命名约定、数据代码、输入字段的格式不一致。小数据集的挖掘结果(精简数据集挖掘结果) 几乎等于 大数据集的挖掘结果(原有数据集挖掘结果)...

2022-08-30 16:53:10 1862

原创 python开发知识基础

在上面的示例中,perform_operation函数模拟了一个被调函数,当输入数据不为空时会返回数据的两倍,否则返回None。在调用该函数后,演示了未处理返回值和处理返回值两种情况,以及如何根据返回值进行适当处理来避免潜在问题的发生。在上面的示例中,calculate_sum函数用于计算列表中所有数字的和,并返回结果。在调用该函数后,展示了未对返回值进行准确处理和处理返回值的两种情况,以及如何通过类型检查等方式确保返回值的准确性,避免潜在问题的发生。

2024-03-28 15:26:51 961

原创 C++简单知识点

C++语言

2023-09-27 22:39:27 73

原创 航空客运信息挖掘

航空客运信息挖掘

2023-05-23 00:00:00 211

原创 财政收入影响因素分析

如果报错:ImportError: cannot import name 'comb'

2023-05-04 15:50:37 164

原创 商务智能期中--知识点

一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)

2023-04-26 13:55:21 354

原创 数据挖掘期中测验--简答题

数据挖掘一般是从大量数据中通过算法搜索出隐藏其中的信息的过程,从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取出潜在且有用的信息的过程,并且这个过程是自动的,通常与计算机有关,通过统计、联机分析处理、情报检索、机器学习等诸多方法实现,这是狭义的定义,还有一种广义的定义,认为数据挖掘就是一个完整的知识发现,包括数据清理、建模、评估等过程。该步骤是数据挖掘的准备,达到改进数据质量,提高数据挖掘过程的准确率和效率,保证数据挖掘的正确性和有效性,通过对数据格式和内容的调整,是的数据更符合挖掘的需要。

2023-04-26 12:39:12 408

原创 算法设计—分支法与回溯法的不同

由于求解目标不同,导致分支限界法与回溯法对解空间的搜索方式也不同,回溯法采用深度优先方法搜索解空间,而分支限界法一般采用用广度优先或以最小耗费优先的方式搜索解空间。在回溯法中,如果当前的扩展结点不能够再向纵深方向移动,则当前扩展结点就成为死结点,此时应回溯到最近的一个活结点处并使此活结点成为扩展结点。回溯法的求解目标是找出解空间树中满足约束条件的所有解,而分支限界法的求解目标则是尽快地找出满足约束条件的一个解。分支限界法的存储空间比回溯法大得多,因此当内存容量有限时,回溯法成功的可能性更大。

2023-04-20 09:14:45 775 2

原创 数据挖掘与机器学习 -- 实验一+实验二

随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的实验内容。

2023-04-20 09:13:08 489

原创 “强国杯”半决赛

MapReduce 采用“分而治之”思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。①SecondaryNameNode 会定期与 NameNode 通信,请求其停止使用 edits 文件,暂时将新的更新操作写到一个新的文件 edits.new 上,这个操作是瞬间完成的。②伪分布式模式:Hadoop 运行在一台主机上,使用多个 Java 进程,模仿完全分布式的各类节点。伪分布式模式具备完全分布式的所有功能,常用于调试程序。

2023-04-18 08:42:45 53

原创 spark测试

Spark WordCount实验。

2023-04-18 08:40:57 173

原创 Numpy用法

【代码】Numpy用法。

2023-04-18 08:39:52 34

原创 数据挖掘--提问

上课提问

2023-04-18 08:34:46 66

原创 商品零售分析案例 - - python

商品零售分析案例 - - python

2023-04-13 17:33:23 285

原创 可视化——美国邮票价格

mark_point=['max','average',{'coord':['1996',0.32],'name':'这是自定义的标记点'}])yaxis_name = '价格',yaxis_name_pos='end',yaxis_formatter='元',line_type='solid',yaxis_max = 0.45, xaxis_name='年份',line = Line("美国邮票价格",title_pos='right')line.render(path='./1.阶梯图.html')

2023-03-30 09:30:49 118

原创 练习----可视化堆叠柱状图

【代码】练习----可视化堆叠柱状图。

2023-03-27 08:54:32 49

原创 作业1 -- xx城市近七日死亡及治愈人数

【代码】作业1--xx城市近七日死亡及治愈人数。

2023-03-22 08:37:56 43

原创 大数据可视化技术——练习一

pandas基本要知

2023-03-15 08:12:29 46

原创 java练习--星期计算+回文+评委评分

java练习题

2023-01-07 19:15:16 112

原创 泰迪杯赛前培训之Pandas实例

【代码】泰迪杯赛前培训之Pandas实例。

2022-10-30 22:45:47 81

原创 泰迪杯赛前培训之Pandas进阶

【代码】泰迪杯赛前培训之Pandas进阶。

2022-10-30 13:34:33 51

原创 泰迪杯赛前培训之Pandas

Dataframe数据结构。在jupyter上进行。

2022-10-29 23:30:22 275

原创 数据预处理综合练习1

6.所属省,所属市,所属地区,详细地址合并为家庭住址,并将所属省,所属市,所属地区,详细地址删除。10.预处理完成后输出student.xls。9.去除其中的完全重复数据和不完全重复数据。5.出生日期格式转为yyyy-MM-dd。7.手机号码 必须为1开头的全数字。1.将姓名的左右两端空格去除。3.性别为空的用“未知”替换。8.所修课程拆分为不同的列。2.姓名全拼转为大写。

2022-10-27 10:45:52 1335

原创 编写两个jsp文件,实现利用include动作完成参数传递计算1!+2!+...+n!

编写两个jsp文件,实现利用include动作完成参数传递计算1!+2!+...+n!

2022-09-28 10:51:12 807

原创 操作系统chap01-习题

操作系统习题

2022-09-19 22:56:18 98

原创 Hadoop伪分布式集群搭建

hadoop

2022-09-18 09:44:20 105

原创 spark -chap01简介与运行原理2

数据可以从许多来源Kafka,Flume,Twitter,ZeroMQ, Kinesis,TCP sockets并且可以使用复杂的算法和高级功能表示处理Map,Reduce,Join和Window。MLlib中已经包含了一些通用的学习算法和工具,如:分类、回归、聚类、协同过滤、降维以及底层的优化原语等算法和工具。spark.ml包中提供的构建机器学习工作流的高层次的API。在Graphs和Graph-parallel并行计算中是一个新的部分,GraphX是Spark上的分布式图形处理架构,可用于图表计算。

2022-09-05 15:50:39 537

原创 数据变换--数据规范化

3)小数定标规范化:通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大绝对值。其中,meanA、 standard_devA分别为属性A取值的均值和标准差。常用于属性最大值与最小值未知,或使用最小最大规范化方法会出现异常数据的情况。:将属性数据按比例缩放,使之落入一个小的特定区间。将属性A的值根据其平均值和标准差进行规范化;

2022-09-03 08:58:05 1796

原创 操作系统知识总结-01

用户使用计算机的3种方式:命令方式;方便性和有效性是设计OS时最重要的两个目标。

2022-08-31 15:03:48 463

原创 分箱--例题

分箱例题

2022-08-30 16:58:17 1556

原创 Java Web

Java Web

2022-08-30 11:43:27 205

原创 Spark--chap01简介与运行原理

Spark是一个大规模数据处理的统一分析引擎。

2022-08-29 16:58:14 341

数据可视化seaborn

数据可视化seaborn

2023-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除