自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(159)
  • 资源 (8)
  • 收藏
  • 关注

原创 黑马一站制造数仓实战2

数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的一张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。属性功能:指定AM为每个Container申请的最小内存,默认为1G,申请不足1G,默认分配1G,值过大,会导致资源不足,程序失败,该值越小,能够运行的程序就越多。维度模型:从分析决策的需求出发构建模型,为分析需求服务,重点关注用户如何更快速的完成需求分析,具有较好的大规模复杂查询的响应性能。

2024-05-31 23:12:55 1137

原创 黑马一站制造数仓实战3

重点关注:dw.ods.meta_data.tablenames.txt:存储了整个ODS层的表的名称。- 修改1:auto_create_hive_table.cn.itcast.EntranceApp.py。- TableMeta.py:Oracle表的信息对象:用于将表的名称、列的信息、表的注释进行封装。- ColumnMeta.py:Oracle列的信息对象:用于将列的名称、类型、注释进行封装。- - - - 表名、表的注释、表在HDFS上的路径、Schema文件在HDFS上的路径。

2024-05-31 23:12:49 697

原创 黑马一站制造数仓实战4

本次数据来源于Oracle数据库,没有具体的ETL的需求,可以直接将ODS层的数据写入DWD层。- 遍历表名,对每张表调用自动化建表的方法:数据库名称、表的名称、None【不分全量或者增量】- 问题5:Oracle中的字段类型如果与Hive中的类型不一致怎么办?- 抽取目标:将ODS层中每张表的数据抽取到DWD层对应的数据表中。- 建表需求:将ODS层中的每一张表创建一张对应的DWD层的表。step1:DWD层的数据库名称是什么,建库的语法是什么?- 问题6:怎么获取Oracle的表的信息的?

2024-05-31 23:12:41 793

原创 黑马一站制造数仓实战5

油站类型、油站名称、油站编号、客户编号、客户名称、省份、城市、县区、油站状态、所属公司。- org_employee:员工信息表【员工id、员工编码、员工名称、用户系统id】需求:构建服务网点维度表,得到服务网点id、网点名称、网点所属的地理区域、服务网点状态等。需求:构建油站维度表,得到油站id、油站名称、油站所属的地理区域、所属公司、油站状态等。org_position:岗位信息表【岗位id、岗位编码、岗位名称、部门id】org_organization:部门信息表【部门id、部门编码、部门名称】

2024-05-31 23:11:41 892

原创 黑马一站制造数仓实战6

功能:存储每个事实主题需要的事务事实数据以及轻度聚合的结果,供ST层基于DWS层进行统计聚合得到最终每个主题的指标。- 目标需求:基于基础的时间、受理方式、来电类型等事实维度统计工单数量、电话数量、回访数量、投诉数量等。- 客户回访事实指标:满意个数、不满意个数、态度满意个数、响应速度的满意个数、技术满意个数。目标需求:基于油站信息及设备数据构建油站主题事实的油站个数、停用个数、新增个数、设备个数等。- 需求:按照一站制造的业务主题的划分需求,构建每个主题的DWB层的数据。

2024-05-31 23:10:55 981

原创 Python入学测试题 江苏某线下培训机构出题

中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。3. 题目:输入两个正整数m和n,求其最大公约数和最小公倍数。为检测自身的情况,请认真作答,不要进行上网搜答案。1. 什么是极大似然估计?2. 二维数组中的查找。5.导数的定义是什么?

2024-01-04 12:01:20 481 1

原创 基于Spring Boot+Vue.js的停车场收费管理系统 需求分析

1.1.3 车辆入场时,显示一个含有车辆基本信息(车牌、车辆类型(小型车/大型车)、入场时间、收费类型(是否为会员)、收费员、入场照片)的对话框,显示抬杆动画,将信息写入数据库。如图所示,可以不通过底色识别新能源车牌,判断出省份和城市代码(如粤B)后有6位即可认为是新能源车,如果第一位是D或F则是小型车,最后一位是D或F是大型车。显示一个含有车辆基本信息(车牌、车辆类型、入场时间、出场时间、缴费金额、是否为会员、收费员、入场照片、出场照片)的对话框,显示抬杆动画,将信息写入数据库。

2023-12-14 16:08:32 362

原创 黑马一站制造数仓实战1

Docker是一个开源的应用容器引擎,使用GO语言开发,基于Linux内核的cgroup,namespace,Union FS等技术,对应用程序进行封装隔离,并且独立于宿主机与其他进程,这种运行时封装的状态称为容器。通过对应用组件的封装,分发,部署,运行等生命周期的管理,达到应用组件级别的一次封装,多次分发,到处部署。step6:如果为维修或者改造服务,需要向服务站点申请物料,物料到达,实施结束,则服务完成。container模式:第一个容器构建一个独立的虚拟网络,其他的容器与第一个容器共享网络。

2023-12-01 20:48:37 424

原创 Spark 9:Spark 新特性

由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想,在Spark3.x版本提供Adaptive Query Execution自适应查询技术,通过在”运行时”对查询执行计划进行优化, 允许Planner在运行时执行可选计划,这些可选计划将会基于运行时数据统计进行动态优化, 从而提高性能.2. 动态分区裁剪可以让我们更好的优化运行时分区内数据的量级. 通过动态的谓词下推来获取传统静态谓词下推无法获得的更高过滤属性, 减少操作的分区数据量以提高性能.

2023-10-09 22:31:27 1128

原创 Spark 8:Spark SQL 执行流程、执行引擎

相当于构建了一个以MetaStore服务为元数据,Spark为执行引擎的数据库服务,像操作数据库那样方便的操作SparkSQL进行分布式的SQL计算。DataFrame:100% 是二维表结构,可以被针对SparkSQL的自动优化,依赖于:Catalyst优化器。而SparkSQL会对写完的代码,执行“自动优化”, 以提升代码运行效率,避免开发者水平影响到代码执行效率。RDD的运行会完全按照开发者的代码执行, 如果开发者水平有限,RDD的执行效率也会受到影响。SQL提交后,底层运行的就是Spark任务。

2023-09-28 11:22:37 385

原创 Spark 6:Spark SQL DataFrame

DataFrame和RDD都是:弹性的、分布式的、数据集。在数据层面上,Column对象记录列数据,Row对象记录行数据。DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不同的是,DataFrame中存储的数据结构是以表格形式组织的,方便进行SQL计算。SparkSQL 和 Hive同样,都是用于大规模SQL分布式计算的计算框架,均可以运行在YARN之上,在企业中广泛被应用。DataFrame对象可以从RDD转换而来,都是分布式数据集,其实就是转换一下内部存储的结构,转换为二维表结构。

2023-09-05 17:20:59 694

原创 Spark 7:Spark SQL 函数定义

UDF定义支持2种方式, 1:使用SparkSession对象构建. 2: 使用functions包中提供的UDF API构建. 要注意, 方式1可用DSL和SQL风格, 方式2 仅可用于DSL风格。udf对象 = sparksession.udf.register(参数1,参数2,参数3)udf对象: 返回值对象,是一个UDF对象,可用于DSL风格。udf对象: 返回值对象,是一个UDF对象,可用于DSL风格。udf对象 = F.udf(参数1, 参数2)参数2:被注册成UDF的方法名。

2023-08-26 09:29:10 646

原创 Spark知识点总结

1. Spark支持哪几种运行模式?:在这种模式下,Spark在单个机器上运行。所有的Spark操作都在一个单独的JVM进程中进行。这种模式适合开发和测试,但不适合处理大规模的数据。:在集群模式下,Spark可以分布在多个机器上运行,从而处理大规模的数据。:这是Spark自带的集群管理系统。在Standalone模式下,你需要手动启动Spark主节点和工作节点。:YARN是Hadoop的资源管理系统。

2023-08-04 18:14:59 382

原创 Hadoop知识点总结

Spark是一种通用的大数据处理框架,它提供了比MapReduce更高级的计算模型,如RDD和DataFrame,以及丰富的计算库,如MLlib和GraphX。使用Spark作为Hive的计算引擎可以实现内存级的计算,大大提高了查询速度,特别是对于迭代式的数据处理任务。每个队列都有固定的资源容量,当队列的资源没有被完全使用时,空余的资源可以被其他队列动态抢占。然而,由于它的计算模型相对固定,且每个任务都需要读写磁盘,因此在处理复杂查询和交互式查询时,性能可能不尽如人意。

2023-08-04 17:25:24 1031 1

原创 Spark 5:Spark Core 内核调度

Spark在1.1以前的版本一直是采用Hash Shuffle的实现的方式,到1.1版本时参考Hadoop MapReduce的实现开始引入Sort Shuffle,在1.5版本时开始Tungsten钨丝计划,引入UnSafe Shuffle优化内存及CPU的使用,在1.6中将Tungsten统一到Sort Shuffle中,实现自我感知选择最佳Shuffle方式,到的2.0版本,Hash Shuffle已被删除,所有Shuffle方式全部统一到Sort Shuffle一个实现中。该参数就代表了可以重试。

2023-07-31 10:22:33 189

原创 Spark 4:Spark Core 共享变量

分布式集合RDD和本地集合进行关联使用的时候,降低内存占用以及减少网络IO传输,提高性能。分布式代码执行中,进行全局累加。广播变量解决了什么问题?累加器解决了什么问题?

2023-07-17 17:06:41 515

原创 Spark RDD练习 算子函数操作

6、创建一个 RDD(由字符串组成)list["xiaoli", "laoli", "laowang", "xiaocang", "xiaojing", "xiaokong"],# 3. 创建一个元素为 1-5 的RDD,运用 flatMap创建一个新的 RDD,新的 RDD 为原 RDD 每个元素的 平方和三次方 来组成 1,1,4,8,9,27…# 7、创建一个 RDD数据为List[10,10,2,5,3,5,3,6,9,1],对 RDD 中元素执行去重操作。

2023-07-01 19:40:28 701

原创 知乎50道SQL题 分享

values ('01', '赵雷', '1990-01-01', '男');values ('03', '孙风', '1990-05-20', '男');values ('05', '周梅', '1991-12-01', '女');values ('06', '吴兰', '1992-03-01', '女');values ('07', '郑竹', '1989-07-01', '女');values ('08', '王菊', '1990-01-20', '女');

2023-06-13 21:59:59 1157

原创 Spark 3:Spark Core RDD持久化

CheckPoint是重量级保存RDD数据,是集中存储,只能存储在硬盘(HDFS)上,设计上是安全的(不保留RDD血缘关系)。Cache是轻量化保存RDD数据,可存储在内存和硬盘,是分散存储,设计上数据是不安全的(保留RDD血缘关系)。Cache性能更好,因为是分散存储,各个Executor并行执行,效率高,可以保存到内存中(占内存),更快。CheckPoint比较慢,因为是集中存储,涉及到网络IO,但是存储到HDFS上更加安全(多副本)。RDD 的CheckPoint。RDD 的数据是过程数据。

2023-05-25 23:05:30 685 2

原创 Spark 2:Spark Core RDD算子

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。内存:尽管mapPartitions在性能上有优势,但需要注意的是,mapPartitions在处理大量数据时可能会导致内存不足,因为它需要在每个分区上一次性处理所有数据。转换算子的返回值100%是RDD, 而Action算子的返回值100%不是RDD。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。

2023-05-18 08:01:49 405

原创 Hadoop 4:Hive

Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。也就是数据驱动决策的制定。元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

2023-05-13 09:36:22 378

原创 Hadoop 3:YARN

通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。现在,如果B用户在其他作业仍在运行时开始第二个作业,它将与B的另一个作业共享其资源,因此B的每个作业将拥有资源的四分之一,而A的继续将拥有一半的资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的。

2023-05-08 06:15:00 509

原创 黑马在线教育数仓实战9

请假的开始时间(请假表.begin_time) = 上课的开始时间(morning_begin_time |afternon_begin_time | evening_begin_time)课程表.class_date between 作息表.use_begin_date and 作息表.use_end_date。

2023-05-05 04:45:00 632

原创 Hadoop 2:MapReduce

Spill阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,还会将有相同分区号和key的数据进行排序。key是每一行的起始位置偏移量,value是本行的文本内容。然后是Reduce聚合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。

2023-05-02 03:15:00 1266

原创 Spark 1:Spark基础入门

Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是互相独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之间不方便共享数据,执行效率比较低。Task:被分配到各个 Executor 的单位工作内容,它是Spark 中的最小执行单位,一般来说有多少个 Paritition(物理层面的概念,即分支可以理解为将数据划分成不同部分并行处理),就会有多少个 Task,每个 Task 只会处理单一分支上的数据。

2023-05-01 17:33:35 814

原创 黑马在线教育数仓实战8

学生出勤主题看板。

2023-04-29 08:15:00 1159

原创 Hadoop 1:Apache Hadoop、HDFS

HDFS中的文件在物理上是分块存储(block)的,默认大小是128M(134217728),不足128M则本身就是一块(块的大小就等于文件本身的大小)。也可以说大数据首先要解决的问题就是海量数据的存储问题。对于每个块,namenode返回具有该块所有副本的datanode位置地址列表,并且该地址列表是排序好的,与客户端的网络拓扑距离近的排序靠前。因为数据以管道的方式,顺序的沿着一个方向传输,这样能够充分利用每个机器的带宽,避免网络瓶颈和高延迟时的连接,最小化推送所有数据的延时。

2023-04-27 09:00:00 975

原创 黑马在线教育数仓实战7

hive.merge.mapfiles : 是否开启map端小文件合并 (适用于MR只有map没有reduce, map输出结果就是最终结果) hive.merge.mapredfiles : 是否开启reduce端小文件合并操作 hive.merge.size.per.task: 合并后输出文件的最大值 ,默认是128M hive.merge.smallfiles.avgsize: 判断输出各个文件平均大小, 当这个大小小于设置值, 认为出现了小文件问题,需要进行合并操作。思考: 小文件有什么影响呢?

2023-04-22 22:40:43 497

原创 黑马在线教育数仓实战6

6. 意向用户主题看板_增量流程。

2023-04-16 09:30:00 335

原创 黑马在线教育数仓实战5

5. 意向用户主题看板_全量流程。

2023-04-13 09:30:00 973

原创 AI技术以及其今后发展

对于IT/计算机/软件专业的学生来说,AI的发展既带来了机会,也带来了挑战。3,你听说过最近的 GPT,new bing, bard,AI 绘画, AI 编程工具么?未来的软件工程师需要具备深厚的AI知识,同时掌握软件工程的基本原则。近期AI成为热点话题, GPT, new bing, bard,AI 绘画等 AI 编程工具引发大量讨论。5,作为一个 IT / 计算机 / 软件专业的学生, 如果 AI 可以帮助人类快速编程序, 那么这些专业的大学毕业生的职业发展是更好了,还是有更大的挑战?

2023-04-09 12:57:31 733

原创 美国高速公路信号灯控制项目的大致逻辑和步骤 智慧公路设计

此外,在纽约开会的时候,项目方问开发人员的那个某某配置文件放哪里合适的问题,这个问题开发人员想了一下应该不由开发人员回答,而是由美国那边设计,因为开发人员并不知道具体是什么配置,当然美国如果不规定的话开发人员这边也可以根据情况设计,比如说如果是key-value型的配置即可放在redis中。左边是工程的目录结构,有很多java文件,即要写的代码,需要按照Spring Boot的要求放在合适的文件夹下;

2023-04-08 09:15:00 226

原创 黑马在线教育数仓实战4

思考: 在统计的过程中, 比如以年统计, 得到一个新的年的统计结果, 那么在DWS层表中是不是还有一个历史的结果呢?要求: 此脚本能够实现自动获取上一天的日期数据, 并且还支持采集指定日期下数据。将shell脚本配置到ooize中, 从而实现自动化调度。将shell脚本放置到ooize中,完成自动化调度操作。最后,将shell脚本配置到oozie (省略)将shell脚本设置到oozie中(省略)​ 只需要采集新增的这一天的数据即可。思考4: 如何编写shell脚本呢?

2023-04-06 17:59:01 617

原创 黑马在线教育数仓实战3

​ 在进行数据统计分析的时候, 一般来说, 第一次统计分析都是全量统计分析 而后续的操作, 都是在结果基础上进行增量化统计操作。此错误是sqoop在运行导出的时候, 一旦执行MR后, 能够报出的唯一的错误: 标识导出失败。解决方案: 将mysql中的from_url字段的varchar长度改的更长一些即可。​ 目的: 从hive的DWS层将数据导出到mysql中对应目标表中。如何查看MR的日志呢?​ yarn: 用于资源的分配 (资源: 内存 CPU)​ 思考: 在创建表的时候, 需要考虑那些问题呢?

2023-03-30 10:00:00 787

原创 黑马在线教育数仓实战2

今日内容:教育项目数仓分层 (知道, 明确每一层的作用)数仓工具的相关的使用 (操作)2.1 HUE相关的使用 (操作HDFS HIVE,OOZIE)2.2 sqoop的基本使用操作访问咨询主题看板实操3.1 需求分析 (务必掌握 -- 最好能够自己分析的出来, 如果不行, 先理解掉)3.2 建模分析 (务必掌握 -- 最好能够自己分析的出来, 如果不行, 先理解掉)3.3 建模操作。

2023-03-27 09:30:00 847

原创 黑马在线教育数仓实战1

1. 教育项目的架构说明项目的架构:基于cloudera manager大数据统一管理平台, 在此平台之上构建大数据相关的软件(zookeeper,HDFS,YARN,HIVE,OOZIE,SQOOP,HUE...), 除此以外, 还使用FINEBI实现数据报表展示各个软件相关作用:zookeeper: 集群管理工具, 主要服务于hadoop高可用以及其他基于zookeeper管理的大数据软件HDFS: 主要负责最终数据的存储YARN: 主要提供资源的分配。

2023-03-23 22:07:23 987 3

原创 软件质量保证与测试 课程设计 测试报告 缺陷报告撰写方法

原因分析及纠正预防措施:(对测试中发现的一些问题分析其产生原因采取的预防纠正措施及这些措施实施的情况)2.没有任何错误检测机制,输入负数、不符合规定类型的数据都会出现系统故障和崩溃的问题。经过黑盒测试和白盒测试,程序发现了10个可优化的漏洞和细节,希望程序员改善。遗留错误说明:(测试后仍然遗留下来未解决的错误及其说明)2、程序中对不正确的数据没有异常处理,应该在代码中完善。详细描述:程序是DOS界面,没有图形用户界面。1、程序是DOS界面,没有图形用户界面。解决时间:2020-06-02。

2023-03-20 10:13:21 632

原创 MySQL 13:MySQL优化

通过创建合适的索引,可以减少Filesort的出现,但在某些情况下,条件限制不能使Filesort消失,所以需要加快Filesort的排序操作。show processlist:该命令查看当前MySQL在进行的线程,包括线程的状态、是否锁表等,可以实时地查看 SQL 的执行情况,同时对一些锁表操作进行优化。第一种是通过对返回的数据进行排序,也就是通常所说的filesort排序,所有不直接通过索引返回排序结果的排序,都称为filesort排序。在所有的组中,id的值越大,优先级越高,越先执行。

2023-03-14 20:37:09 207

原创 MySQL 12:MySQL日志

如果是ROW,由于是对全表进行更新,也就是每一行记录都会发生变更,ROW 格式的日志中会记录每一行的数据变更。STATEMENT:该日志格式在日志文件中记录的都是SQL语句(statement),每一条对数据进行修改的SQL都会记录在日志文件中,通过Mysql提供的mysqlbinlog工具,可以清晰的查看到每条语句的文本。客户端的所有操作语句都记录在查询日志中,但二进制日志中不包含查询数据的SQL语句。默认情况下,查询日志记录是禁用的。MySQL 的日志分为错误日志、二进制日志、查询日志、慢查询日志。

2023-03-09 09:59:02 290

原创 创业项目 大学生课程辅导app创业计划

我们的团队有6人,计划初期融资10万元人民币,6人保留公司的至少60%股权。该行业刚刚起步就非常火爆,现在仍然是中学生备战高考的必备工具,市场容量巨大,并有向更大领域和功能扩张的趋势。管理思想:以质量管理理论为指导,要求人员和产品必须不断完善、学习、成长,同时对经营过程彻底进行再思考和再设计,以便在业绩衡量标准(如成本、质量、服务和速度等)上取得重大突破,完成企业再造。后来,该公司又推出了“猿辅导”等在线辅导课程功能,成为了行业的独角兽,仅3年时间,估值即达到3.6亿美元(约23亿人民币)。

2023-03-01 09:50:42 889

Python钉钉创建待办任务和个人待办任务,接口已调试成功

Python钉钉创建待办任务和个人待办任务,获取企业内部应用的accessToken,根据user_id APP_KEY, APP_SECRET 获取person_access_token,获取用户union id,创建个人待办任务,接口已调试成功

2024-10-28

Python机器学习研究公司的财务表现和业务运营 评估研发投资的效果、市场表现、财务健康状况和增长潜力 建立预测模型

财务补助和投资: rdsubsidy: 研发补助 nrdsubsidy: 非研发补助 vc_dum: 风险资本投资(虚拟变量) 关注度和研发投资: attention1, attention2: 公司关注度指标 rd1, rd2: 不同时间点的研发投入 公司基本情况: size: 公司规模 age: 公司年龄 lev: 财务杠杆率 fasset: 固定资产 growth: 增长率 holderr1: 主要股东持股比例 bsmsalary: 基础薪酬 market: 市场价值或定位f1lnpt: 这个变量的名字暗示它可能是某种财务指标的对数形式。通常,采用对数转换的目的是为了正态化数据、处理极端值或改善变量间的线性关系。具体来说,它可能表示利润、收入或其他财务性能的对数。 f1lnpti: 这个变量可能是 f1lnpt 指标的一个国际版本或以不同方式计算的版本,也是对数形式。 f1lnptud: 这个变量可能表示未分配或未决定的 f1lnpt 类型的数据,也是对数形式。 Python机器学习人工智能数据分析

2024-10-28

美国车险是否为欺诈索赔机器学习实验 SMOTE上采样方法 随机森林网格搜索 条形图饼图散点图可视化数据分析

美国车险是否为欺诈索赔机器学习实验 SMOTE上采样方法 随机森林网格搜索 条形图饼图可视化数据分析 数据集是关于保险索赔的,包含了与保险单相关的详细信息以及被保险人的一些个人信息和事件详情。数据集中的变量包括保险单的基本信息、被保险人的性别、教育水平、职业等,以及与特定保险事件相关的信息。

2024-10-28

Python国外某书店顾客购书金额数据分析 图书单词词频 地理坐标分析

Python国外某书店顾客购书金额数据分析 图书单词词频 地理坐标分析

2024-05-31

Python Grad-CAM通道注意力机制 ResNet残差网络 图像天气分类 绘制注意力图热图 torch 有图像天气数据集

Python Grad-CAM通道注意力机制+ResNet残差网络 图像天气分类 绘制注意力图热图热力图 torch pytorch 深度学习 有数据集有图像天气数据集

2024-05-31

Python电商用户画像 kmeans聚类 商品特征提取 按月份统计客户人数

Python电商用户画像 kmeans聚类 商品特征提取 按月份统计客户人数 数据分析 数据挖掘 人工智能 机器学习

2024-05-31

某高校选课记录数据集 朴素贝叶斯KNN单词向量化 预测课程类别

某高校选课记录数据集 朴素贝叶斯KNN单词向量化 预测课程类别 python sklearn numpy pandas 机器学习 数据分析 数据挖掘 d 编号 任课单位 分组编号 课程 课程性质 教室 上课时间 周次 学分 ... 已选人数 余容 优选专业 选课说明 锁定 校区 课程类别 课程体系 排课类别 单列实验 0 2478997 300349777 马克思主义学院 形势与政策Ⅳ103 形势与政策Ⅳ 必修 10-小礼堂<br> 2-3,2-4<br> 12,14,16 0.5 ... 278 367 数字媒体202001,数字媒体202002,数字媒体202003,人力202001,人力20... NaN 否 雅安 NaN 公共课 混教 否

2024-03-05

cox回归 随机生存森林 CoxPH calibration置信度曲线图 泰坦尼克号数据集

cox回归 随机生存森林 CoxPH calibration置信度曲线图 泰坦尼克号数据集 pysurvival roc曲线auc指标 numpy pandas sklearn matplotlib python 数据分析 机器学习 人工智能 数据挖掘

2024-01-04

Python数据分析 世界幸福指数人口GDP数学建模分析

Python数据分析 世界幸福指数人口GDP数学建模分析 文件IO分类汇总分组聚合统计分析

2024-01-03

浏览器显示数据库中数据的条形图柱状图 前后端分离vue.js+spring boot 计算机软件工程课程设计毕业设计 前端 后端

浏览器显示数据库中数据的条形图柱状图 前后端分离vue.js+spring boot 计算机软件工程课程设计毕业设计 前端 后端 java html css JavaScript

2023-08-30

IBM data warehouse professional certificate 数据仓库专业认证测试题答案 截图

IBM data warehouse professional certificate 数据仓库专业认证测试题答案 截图 data warehousing certification coursera

2023-08-04

Java Spring Cloud eureka feign gateway nacos 微服务分布式 学习资料&项目源码&教程

Java Spring Cloud eureka feign gateway nacos 微服务分布式 学习资料&项目源码&教程 maven

2023-08-03

Python pymysql 经纬度坐标位置 计算 kmeans 欧氏距离 曼哈顿距离 计算机课程毕设

Python pymysql 经纬度坐标位置 计算 kmeans 欧氏距离 曼哈顿距离 计算机课程毕设 numpy pandas sklearn 数据分析 数据挖掘 Manhattan距离的api输出的格式转化# 求平均保存为csv格式数据文件

2023-08-03

Python计算用户输入的一系列跑步时间的统计数据,包括总天数、总分钟数、平均时间以及每公里的平均时间 绘制UML流程图

Python计算用户输入的一系列跑步时间的统计数据,包括总天数、总分钟数、平均时间以及每公里的平均时间 绘制UML流程图代码步骤如下: 提示用户输入每次跑步的时间,单位为分钟,输入-1表示结束输入。 创建一个名为 time_list 的空列表来存储输入的时间。 使用 while 循环不断获取用户的输入。如果输入不是 -1,则将输入的时间添加到 time_list 中。如果输入是 -1,则跳出循环。 计算天数(num_days),即 time_list 中的元素数量。 计算总分钟数(total_minutes),即 time_list 中元素的和。 计算平均时间(average_time),即总分钟数除以天数。 计算每公里的平均时间(average_time_per_km),即平均时间除以 (5 * 天数)。这里假设每次跑步的距离是 5 公里。 打印天数、总分钟数、平均时间以及每公里的平均时间。 用户通过输入一系列跑步时间,代码将为他们提供有关他们跑步情况的统计信息。

2023-06-01

Python预测电池容量 具有自注意力机制self attention的双向长短时记忆网络Bi-LSTM tensorflow

cycle capacity discharge_voltage_measured discharge_time discharge_temperature_measured discharge_current_measured charge_voltage_measured charge_current_measured 将数据转换为适合训练和测试的形式。这个函数接收输入数据和时间戳长度,将数据分割为多个时间序列段,用于预测下一个时间戳的电池容量。一个用于预测电池容量(capacity)的深度学习模型。它使用了一个具有自注意力机制的双向长短时记忆网络(BiLSTM) 定义data_gen函数,将数据转换为适合训练和测试的形式。这个函数接收输入数据和时间戳长度,将数据分割为多个时间序列段,用于预测下一个时间戳的电池容量。 使用data_gen函数生成特征x和目标y。 对x和y进行标准化处理。 将数据集分为训练集和测试集。 将训练集和测试集转换为适合深度学习模型的形状。 定义一个深度学习模型,包括一个卷积层、一个自注意力层、一个双向LSTM层和两个全连接层。

2023-05-19

USB Q2406A MODEM USB GPRS GSM Python代码API手机发送短信 企业短信通驱动+配置文档+说明书

USB Q2406A MODEM GSM企业短信通驱动+配置文档+说明书 Python代码 API 向手机发送短信 原创的py代码 AT 指令集 Baiyi USB GPRS MODEM 收发短消息

2023-05-05

交通事故视频数据集 异常驾驶行为视频 高速公路摄像头监控视频 提供Python下载视频的代码 逐帧分割成图像保存在本地

交通事故数据集 异常驾驶行为视频 Python下载视频的代码 逐帧分割成图像 保存在本地 github仓库链接:https://github.com/MoonBlvd/Detection-of-Traffic-Anomaly,里面有用Python下载YouTube上一些交通事故相关的视频作为数据集的方法,按github链接上写的方法把视频数据集下载下来,再运行里面的一个py文件做逐帧保存 此外,仓库还提供了用于训练和测试 FOL(Flow-based Object Localization)模型的对象边界框轨迹和相应的光流特征。通过运行一个示例的数据加载器,用户可以使用这些提取的数据。 这个GitHub仓库包含了DoTA数据集和相关论文的代码,用于检测驾驶视频中的交通异常行为。用户可以根据提供的步骤下载和处理数据集,以及使用提取的数据进行模型训练和测试。 github仓库也下载了,在我的压缩包里,代码为本人原创 由于CSDN限制1GB以内,压缩包中为部分视频,下载其他视频的方法也在压缩包中

2023-05-02

DES加密算法 C++ Visual Studio 代码实现 课程设计 信息安全概论 课设作业

DES加密算法 C++ Visual Studio 代码实现 课程设计 信息安全概论 课设作业

2023-05-01

商店商品管理系统 大学生课程设计 课设作业 Java Web JDBC MySQL jsp

商店商品管理系统 大学生课程设计 课设作业 Java Web JDBC MySQL Shop jsp

2023-05-01

JavaWeb教材管理系统 课程设计 计算机课设 权限管理 html css jsp jdbc Java web servlet

教材管理是大学信息化中的重要一环。教材管理系统数据管理信息系统中比较典型的用例,这一系统的开发主要包括前端用户友好的操作、后台算法、数据库连接(JDBC)等技术。MySQL数据库 能很好地支持系统相关操作。 登录界面显示 用户信息教师提交教材信息 教材科管理员审批教材 学生订书 按学期显示历史数据 使用HTML5的各种标签特性。 使用JSP技术,通过动作、指令、内置对象等在文件中使用类Java代码实现数据传输、判断等操作。 使用JavaBean,简化JSP代码。 灵活使用CSS,美化界面。 使用JDBC技术,实现与数据库的读写操作。 Java web tomcat service servlet 首先显示登录界面,随后通过数据库验证用户名和密码是否正确,进入到主界面,选择希望进入的功能并输入要添加、删除、修改、查询的数据,连接数据库保存。

2023-05-01

英雄对战游戏设计 漫威超英对战 Visual Studio C++面向对象程序设计课程设计 STL库 软件设计与体系结构

原创代码 漫威电影宇宙,是由漫威影业基于漫威漫画角色制作的一系列电影组成的架空世界和共同世界 ,漫威宇宙中出现的各个装备,人物都吸引着观众的眼球,不少人对于漫威人物十分喜爱,在忙碌的生活中,这些人物的存在为他们的生活增色不少。 漫威宇宙的各个人物积累了大量的粉丝,我们的游戏让他们可以身临其境的感受电影中的对战部分,让粉丝更加接近角色。让大家在生活之余,不在电影院也能享受和人物“隔空对话”。Filemanager.cpp, hero.cpp, monster.cpp,Game.cpp 所有.h文件 infinitygauntlet.cpp, Mjolnir.cpp, knife.cpp ■Filemanager:文件的读取 ■Hero:编写英雄的函数,有体力,名字,防御,攻击,武器等信息 ■InfinityGaunter:编写无限手套函数,伤害暴击吸血冰冻等效果 ■Knife:编写小刀的函数,暴击冰冻吸血等效果并且有随机性 ■Mjolnir:编写雷锤的函数 ■Monster:编写怪物函数,名称体力攻击防御 ■Weapon:武器类,赋予武器各种属性

2023-05-01

小型计算器程序 Visual C++ MFC 面向对象程序设计课程设计 课设作业

小型计算器程序 Visual C++ MFC 面向对象程序设计课程设计 课设作业 小型计算器程序的编写 【设计目的】 1 学习 Visual C++的 MFC 开发程序的步骤。 2 综合运用所学的类、继承和多态的知识。 3 进一步掌握程序的调试方法。 【设计内容】 1 利用 MFC 的向导,创建基于对话框的应用程序,添加按钮、编辑框等控件; 2 实现算术加、减、乘、除等运算; 3 三角函数的运算、对数运算、指数运算、进制转换等。 vc6.0

2023-05-01

yolov论文 华为杯ICT大赛参考论文 yolov3 yolov4 yolov5

yolov论文 华为杯ICT大赛参考论文 yolov3 yolov4 yolov5 基于YOLOv5的雾霾天气下交通标志识别模型 基于改进YOLOv3的小目标道路交通标志检测识别与跟踪 基于改进YOLOV4模型的交通标志识别研究 一种优化YOLO模型的交通警察目标检测方法

2023-05-01

ChatGPT接入项目实例 Python 调用davinci 002 api 示例 text-davinci-002

ChatGPT接入项目实例 Python 调用davinci 002 api 示例 text-davinci-002

2023-04-30

计算机网络 MFC实现FTP客户端 C++课程设计课设作业

计算机网络 MFC实现FTP客户端 C++课程设计课设作业 visual studio

2023-04-30

计算机网络 WinSock socket socketclient通信套接字 C++课程设计课设作业 visual studio

计算机网络 WinSock socket socketclient通信套接字 C++课程设计课设作业 visual studio

2023-04-30

计算机网络 MFC动画模拟实现滑动窗口协议 C++课程设计课设作业

计算机网络 MFC动画模拟实现滑动窗口协议 C++课程设计课设作业 Visual c++

2023-04-30

计算机图形学基础教程 孔令德 Visual C++版 课后习题代码实现 计算机辅助设计课设作业课程设计

计算机图形学基础教程 孔令德 Visual C++版 课后习题代码实现 计算机辅助设计课设作业课程设计 原创 VC6.0

2023-04-30

C++ MFC程序设计 旋转三角形动画 折线道路 计算机图形学 计算机辅助设计 程序设计 课程设计

C++ MFC程序设计 旋转三角形动画 折线道路 计算机图形学 计算机辅助设计 程序设计 课程设计 课设作业 visual c++ 绘图 CAD技术

2023-04-30

C++ MFC程序设计 Bezier B样条 Hermite曲线 计算机图形学 计算机辅助设计 程序设计 课程设计

C++ MFC程序设计 Bezier B样条 Hermite曲线 计算机图形学辅助设计程序设计课程设计 课设作业 visual c++ 绘图 CAD技术

2023-04-30

进程管理系统设计 允许n个进程并发运行的进程管理模拟系统 进程创建、撤销、阻塞、唤醒 同步控制 操作系统课程设计 c++课设

Visual Studio 要求设计一个允许n个进程并发运行的进程管理模拟系统。该系统包括有进程创建、撤销、阻塞、唤醒;进程的同步控制。进程调度算法可以选择优先级调度,时间片轮转,短进程优先等。每个进程用一个PCB表示,其内容根据具体情况设置,系统在运行过程中应能显示或打印各进程的状态及有关参数的变化情况,以便观察进程的运行过程及系统的管理过程。每个进程控制块(类)有进程id、进程状态、进程预估时间、进程到达时间、进程完成时间、进程运行时间、进程剩余时间等变量,用于数据计算。每秒进行一次计算,附带清屏、重新显示三种状态的进程和运行状态进程的剩余时间,以及CPU和系统资源的使用情况,清晰直观展示进程P、V操作。系统中有可自由设定的CPU和资源数量,以判断进程应该处于哪个状态。运行、等待状态进程使用list容器,就绪状态进程使用multimap容器,容器内值为一个包括PCB和判断进程是否占用资源的bool值的pair对组。使用短进程优先调度方法。使用64位的BitMap标志进程,确保每个进程的pid唯一,节省内存。

2023-04-30

PL/0语言编译程序改写 利用 Flex 及 Bison 工具重写 C 语言编写的 PL/0 编译器 编译原理技术课程设计作业

利用 Flex 及 Bison 工具对所提供的 C 语言编写的 PL/0 编译器进行重写,要求所完成功能与原有程序相同。程序包括.l .y .cpp .h 4个部分,根据原先的 pl0.c 进行改写,功能是读入一段给定的程序并进行自动分析,生成代码序列。 1.程序会要求用户输入文件的名称,然后确定输出文件的名称。 2.自动逐个单词读取文件中信息。 3.读到begin的时候,开始生成代码。 4.之后每生成一行代码都会显示一次,结束的时候将生成的所有代码全部显示。学会了在Visual Studio 环境下配置并使用Flex和Bison对给定程序进行编译以及生成代码,加深了对编译原理的理解。课设

2023-04-30

网络软件开发 基于web的高校教学考试成绩管理系统 Java html jsp tomcat service项目 MySQL数据

教师端主要功能为成绩录入和成绩分析表录入。正考成绩录入、补考成绩录入、重修成绩录入和成绩查看。录入正考成绩需要先设置成绩系数,设置后方可录入正考成绩。对于不及格的学生以及未参加正考的学生,可以进行补考成绩录入。对于补考不及格的可以进行重修成绩录入。教师也可按学期、学年查看学生成绩。成绩分析表录入主要是对学生成绩进行分析,教师可以查看每个分数段的学生占比、最高分、最低分以及标准差。教师也可以进行成绩分析。学生用户可以选择学年学期然后查看该学年学期的所有成绩,成绩能够体现该考生的该门课程成绩是正考成绩还是补考或重修成绩。学生用户可以查看自己所有的课程成绩,成绩的体现如查看某一学期的成绩一样。学生用户可以打印成绩表格,生成pdf,用于保存。管理员端修改成绩状态。若教师提交的成绩有些许错误,管理员可以修改教师提交的成绩状态,将已经老师提交的成绩状态改为暂存状态,这样教师可以在原来提交的基础上进行修改,不用完全重新输入成绩;当教师提交成绩后发现成绩有很大错误必须全部重新填写成绩时,管理员可以对已经提交的成绩进行撤销,即删除教师已经提交的某课程的成绩。管理员可以设置系统当前的学年和学期

2023-04-30

Java 办公OA系统员工信息管理上传头像增删改查登录注销权限分配 redis缓存 前端Vue后端Spring Boot毕业设计

Java办公OA系统员工信息管理增删改查上传头像登录注销权限分配 redis缓存 前端Vue后端Spring Boot 计算机毕业设计 Vue.js vue cli element UI饿了么前端框架 代码原创 课程设计作业 Mysql数据库 员工入职离职模块子模块

2023-04-30

西安市公交车线路各站点经纬度发车时刻表数据分析 folium画图在html可视化公交车站台路线 Python

西安市公交车线路各站点经纬度发车时刻表数据分析 folium画图在html可视化公交车站台路线 Python 数据挖掘 numpy pandas matplotlib json

2023-04-30

Android高速公路病害监测系统 前端Android后端Spring Boot 计算机科学与技术软件工程毕业设计课程设计

Android Studio 高速路交通事件事故检测app管理系统 MySQL数据库.sql文件 基于移动终端的公路病害监测系统 一款基于Android系统移动终端的公路病害监测系统应用程序。本监测系统选用了通过HTTP协议发送结构化的数据与非结构化的图像等信息,以作为管理系统视图层(View)的一部分,可移植性强,实现了跨平台操作。操作人员可以选择将需要上传的病害信息、照片及其详情,系统将数据打包成JSON格式并上传到后台服务器,以适配服务器提供的RESTful风格接口,且方便后续补充更多功能,可扩展性高。使用了百度地图提供的SDK进行定位并获取经纬度信息,以解决操作人员在病害现场及时精准定位的需求。 系统允许操作人员在病害现场手持Android设备对监测到的病害名称、类型、防治和修复方法、实时获取的经纬度等信息进行录入、修改和删除,实现了病害现场照片及标题、详细信息的上传功能。

2023-04-30

Android入门学习项目 Android Studio所有常用组件详细使用方法 代码实现 Java XML app开发

Android入门学习项目 Android Studio所有常用组件详细使用方法 代码实现 Java XML app开发 actionbar actionbartab activity app boxmessage eventdeal fragment gradle intentproporties javalayout layoutframe layoutframesquare layoutgrid layoutlinear layoutrelative layouts layouttable multimedia multimediasurfacevideo paint resource uidate uihigh uihighgrid uihighspinner uijishiqi uiscroll uitab uitext uitime xmljavalayout xmllayout

2023-04-30

2022 深圳杯 数学建模 A题 破除“尖叫效应”与“回声室效应”,走出“信息茧房” Python代码

2022 深圳杯 数学建模 A题 破除“尖叫效应”与“回声室效应”,走出“信息茧房” Python代码 主题-困惑度模型 数据分析 数据挖掘 微博唐山打人事件.csv数据集 数据预处理 自然语言处理 doc2bow LDA主题 LdaModel CoherenceModel jieba进行分词 用pyLDAvis将LDA模式可视化 部分代码 可供参考学习 NLP机器学习 可视化

2023-04-30

Python 200辆出租车1天的数据 2014 04 09 数据说明 显示数据 用DBSCAN算法发现上下车热点 folium

代码原创 附件中为200辆出租车1天的数据,数据说明也包括其中。先显示数据,再用DBSCAN算法发现上下车的热点 数据可视化 数据分析 挖掘 2014年4月9日出租车行驶轨迹信息 20140409 SEQ LONGITUDE LATITUDE SPEED CAR_STAT1 GPS_DATE GPS_DATETIME folium Python html显示热点

2023-04-30

tensorflow certificate 深度学习开发者认证 Google证书 5道建模问题 文本分类图像分类时序预测 参考

tensorflow certificate 开发者认证 深度学习证书 Google认证 5道建模问题 文本分类图像分类时序预测 参考 本人已获得认证 模型搭建 保存为h5格式 keras numpy pandas 自然语言处理 祝你100美元花得值!该证书旨在让世界上的每一个人都有机会在 AI 技术日益火热的全球招聘市场中展现自己的机器学习专业知识。

2023-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除