自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(101)
  • 资源 (3094)
  • 收藏
  • 关注

原创 基于Python实现 HR 分析(逻辑回归和基于树的机器学习)【500010104】

基于Python实现 HR 分析(逻辑回归和基于树的机器学习)1、数据探索(初始EDA和数据清理):收集数据的基本信息、重命名列、检查缺失值、检查重复、检查离群值;2、数据可视化:根据项目比较留下来的员工和离开的员工、平均每月工作时间和满意度、根据任期比较留下来的员工和离开的员工、月平均工作时间和上次评估、平均月工作时间和最近5年的晋升之间的关系、根据部门比较留下来的员工和离开的员工、项目数、月工作时间、考核分数三者关系;3、建立Logistic回归模型:数据集的热图、各部门离职和留职员工的数量;4

2024-05-24 11:40:53 2240

原创 基于Python实现心脏病数据可视化DEA+预测【500010103.1】

该心脏病数据集是通过组合 5 个已经独立可用但以前未合并的流行心脏病数据集来策划的。在这个数据集中,5 个心脏数据集结合了 11 个共同特征,使其成为迄今为止可用于研究目的的最大心脏病数据集。该数据集由 1190 个实例和 11 个特征组成。这些数据集被收集并组合在一个地方,以帮助推进与CAD相关的机器学习和数据挖掘算法的研究,并希望最终推进临床诊断和早期治疗。

2024-04-25 16:49:48 954 1

原创 Python代码片段之SQL操作

包含:连接 PostgreSQL、单表导出数据、使用 WHERE 语句过滤、使用 HAVING 语句过滤、取出前N条数据、多表导出数据、使用聚合函数、使用 Subquery、使用 WITH 语句、通用条件表达式、查看数据库中所有表名、窗口函数、查看表内字段类型、

2024-02-21 09:37:57 85

原创 基于Python实现中美地区经济发展对比与预测分析(商业大数据分析)【500010072】

目标1:对比分析 2022 年美国各州与中国主要城市的经济 目标2:分析中国 1997-2018 年县域社会经济主要指标的变化趋势,探索经济发展的地域差异目标3:对比分析中国主要城市与美国各州在不同产业(如第一产业、第二产业、第三产业)的GDP增加值,揭示两国产业结构的差异目标4:基于历史数据,预测未来五年中美两国的经济发展趋势目标5:探索影响中美两国经济发展的主要因素(产业结构) 目标6:再探中美两国经济发展下的产业结构

2024-02-21 08:58:54 1500

原创 基于K-Means聚类与RFM模型分析顾客消费情况【500010102】

实现基于Python K-Means聚类与RFM模型分析顾客消费情况1、数据处理1.1、Python库导入1.2、数据导入1.3、数据预览1.4、数据逻辑性检查1.5、数据处理2、数据分析2.1、订单数据趋势分析2.2、订单特征分析2.3、消费者反馈分析2.4、时间序列分析2.4.1、销售额时序图2.4.2、时间序列分解结果2.4.3、建立SARIMA模型2.4.4、预测未来七天的销售额2.5、基于聚类分析构建用户画像2.5.1、数据处理2.5.2、确定聚类数2.5.3

2024-01-16 16:28:49 1004 3

原创 基于K-Means聚类算法与随机森林模型评估信贷风险客户【500010101】

实现基于Python K-Means聚类算法与随机森林模型评估信贷风险客户1、数据处理1.1、Python库导入1.2、数据导入1.3、数据预览1.4、数据处理2、数据分析2.1、客户基本情况分析2.2、客户经济情况分析2.3、客户贷款情况分析2.4、客户贷款风险评估分析2.4.1、划分高风险客户和低风险客户2.4.2、基本情况对比2.4.3、经济情况对比2.4.4、贷款情况对比2.5、用户画像分析2.5.1、确定聚类数2.5.2、建立k均值聚类模型2.5.3、四类客户之

2024-01-12 15:02:20 1505 1

原创 基于Python实现二手房整体情况可视化分析+房价预测【500010099】

1、数据处理1.1、导入模块1.2、获取数据1.3、数据分析处理1.4、数据清洗2、数据可视化2.1、箱线图分析2.2、单价、数量、总价和行政区域之间的关系2.3、面积和总价的关系2.4、朝向和总价的关系2.5、装修和总价的关系2.6、楼层和总价的关系2.7、电梯和总价的关系2.8、学区房和总价的关系2.9、建筑年代情况分析以及和总价的关系2.10、产权性质、住宅类别、建筑结构、建筑类别与总价的关系2.11、户型和总价的关系3、模型建立及预测3.1、删除所有缺失值

2024-01-04 16:38:02 928 2

原创 基于C++实现水仙花数

实际上,可以穷举 0~9 这 10 个数字出现的次数(每个数字都可能出现 0~5 次),当所有数字出现次数之和等于 5 时,说明这时数字的组合有可能为 5 位花朵数,进而求出每个数字的 5 次方分别乘以其出现的次数的和值 sum,再判断 sum 内各个数字出现的次数是否与穷举各个数字时每个数字出现的次数分别相同,若相同,则 sum 就是一个 5 位花朵数。借用这个概念,在程序设计实践中,我们设计了一个程序后,可以在这个程序的基础上,再进行优化和扩展,看能否采用另外的、更好的方法来解决这个问题。

2023-11-27 11:07:52 3725

原创 基于C#实现梳排序

下面我们看看具体思想,梳排序有这样一个 1.3 的比率值,每趟比较完后,都会用这个 1.3 去递减 gap,直到 gap=1 时变成冒泡排序,这种算法比冒泡排序的效率要高效的多,时间复杂度为 O(N2/2p) 这里的 p 为增量,是不是跟希尔排序有点点神似。冒泡排序上我们的选择是相邻的两个数做比较,就是他们的 gap 为 1,其实梳排序提出了不同的观点,如果将这里的 gap 设置为一定的大小,效率反而必 gap=1 要高效的多。

2023-11-27 11:06:49 606

原创 基于C#实现十字链表

上一篇我们看了矩阵的顺序存储,这篇我们再看看一种链式存储方法“十字链表”,当然目的都是一样,压缩空间。

2023-11-27 11:06:09 806

原创 基于C#实现奇偶排序

这篇就从简单一点的一个“奇偶排序”说起吧,不过这个排序还是蛮有意思的,严格来说复杂度是 O(N2),不过在多核的情况下,可以做到 N2 /(m/2)的效率,这里的 m 就是待排序的个数,当 m=100,复杂度为 N2 /50,还行把,比冒泡要好点,因为重点是解决问题的奇思妙想。下面我们看看这个算法是怎么描述的,既然是奇偶,肯定跟位数有关了先将待排序数组的所有奇数位与自己身后相邻的偶数位相比较,如果前者大于后者,则进行交换,直到这一趟结束。然后将偶数位与自己身后相邻的奇数位相比较,如果前者大于后者,则

2023-11-27 11:05:29 566

原创 基于C#实现块状链表

这个比较简单,我们在每个链表节点中定义一个 头指针,尾指针和一个数组节点。/// 指向前一个节点的指针/// 指向后一个节点的指针/// 链表中的数组。

2023-11-27 11:04:54 1088

原创 基于C#实现鸡尾酒排序(双向冒泡排序)

从结果上面看,我们会发现,当数组有序的时候,我们还会继续往下排,知道完成 length/2 次,这个就跟没优化之前的冒泡排序一样,此时我们可以加上一个标志位 IsSorted 来判断是否已经没有交换了,如果没有,提前退出循环。冒泡是一个单向的从小到大或者从大到小的交换排序,而鸡尾酒排序是双向的,从一端进行从小到大排序,从另一端进行从大到小排序。从图中可以看到,第一次正向比较,我们找到了最大值 9.第一次反向比较,我们找到了最小值1.第二次正向比较,我们找到了次大值8.第二次反向比较,我们找到了次小值2。

2023-11-27 11:04:10 753

原创 基于C#实现外排序

我们知道内存队列存放的只是小文件的 topN 条记录,当内存队列为空时,我们需要再次从小文件中读取下一批的 TopN 条数据,然后放入中转站继续进行比较。在这种场景下,我们决定每个文件放 1000 条,也就有 33 个小文件,也就有 33 个内存队列,每个队列取 Top100 条,Batch=500 时刷新。根据实际情况我们来决定到底要分成多少个小文件,并且小文件的数据必须是有序的,小文件的个数也对应这内存中有多少个优先队列。这个基本没什么好说的,采用随机数生成 n 条记录。内存存放量:1200。

2023-11-25 11:29:07 812

原创 基于C#实现双端队列

通常情况下,队列的内部都是采用数组来实现,而且带有两个指针 head 和 tail 来指向数组的区间段,为了充分利用数组空间,我们也会用 % 来实现逻辑上的循环数组,如下图。这里有一个注意的细节就是“size 字段“,它是为了方便统计队列是否为满或者队列是否为空。

2023-11-25 11:28:35 724

原创 基于C#实现三元组

我们知道矩阵是一个非常强大的数据结构,在动态规划以及各种图论算法上都有广泛的应用,当然矩阵有着不足的地方就是空间和时间复杂度都维持在 N2 上,比如 1w 个数字建立一个矩阵,在内存中会占用 1w*1w=1 亿的类型空间,这时就会遇到 outofmemory。。。那么面临的一个问题就是如何来压缩矩阵,当然压缩的方式有很多种,这里就介绍一个顺序表的压缩方式:三元组。

2023-11-25 11:27:37 723

原创 基于C#实现并查集

region 树节点/// 树节点/// 父节点/// 节点的秩#endregion。

2023-11-24 10:57:43 658

原创 基于C#实现Kruskal算法

这篇我们看看第二种生成树的 Kruskal 算法,这个算法的魅力在于我们可以打一下算法和数据结构的组合拳,很有意思的。

2023-11-24 10:57:08 680

原创 基于C#实现Dijkstra算法

或许在生活中,经常会碰到针对某一个问题,在众多的限制条件下,如何去寻找一个最优解?可能大家想到了很多诸如“线性规划”,“动态规划”这些经典策略,当然有的问题我们可以用贪心来寻求整体最优解,在图论中一个典型的贪心法求最优解的例子就莫过于“最短路径”的问题。

2023-11-24 10:56:34 858

原创 基于C#实现线段树

从图中我们可以清楚的看到[0-10]被划分成线段的在树中的分布情况,针对区间[0-N],最多有 2N 个节点,由于是平衡二叉树的形式也可以像堆那样用数组来玩,不过更加耗费空间,为最多 4N 个节点,在针对 RMQ 的问题上,我们常常在每个节点上增加一些 sum,max,min 等变量来记录求得的累加值,当然你可以理解成动态规划的思想,由于拥有 logN 的时间,所以在 RMQ 问题上比数组更加优美。前面我也说了,构建有两种方法,数组的形式或者链的形式,各有特点,我就采用后者,时间为 O(N)。

2023-11-23 16:18:58 446

原创 基于C#实现赫夫曼树

赫夫曼树又称最优二叉树,也就是带权路径最短的树,对于赫夫曼树,我想大家对它是非常的熟悉,也知道它的应用场景,但是有没有自己亲手写过,这个我就不清楚了,不管以前写没写,这一篇我们来玩一把。

2023-11-23 16:18:28 397

原创 基于C#实现Prim算法

Console.WriteLine("最小生成树为:");Console.WriteLine("最小生成树为:");/// 定义矩阵节点/// 顶点个数/// 边的条数/// 顶点个数/// 边的个数#region 矩阵的构建/// 矩阵的构建//顶点数//边数//构建二维数组i++)//顶点j++)#endregion#region 边的信息。

2023-11-23 16:17:58 413

原创 基于Python实现汽车销售数据可视化+预测【500010086.1】

1、获取数据2、数据分析处理3、数据可视化及预测3.1、销量分析3.1.1、波动性分析(汽车月销量时间序列图、计算月销量的标准差、滚动标准差图)3.1.2、同比增长分析(汽车销量同比增长率图)3.1.3、时间序列分析3.1.4、预测未来销量(汽车销量时间序列图、ACF、PACF、SARIMA预测)3.2、厂商分析3.2.1、厂商销量分析(计算各厂商的总销量和平均月销量、Top 5 厂商的年度销量趋势图)3.2.2、市场份额分析(市场份额排名前10的厂商、Top 5 厂商的市场份额趋势图)

2023-11-23 11:33:26 3579 1

原创 基于C#实现优先队列

我们在每个节点上定义一个level,表示该节点的优先级,也是构建堆时采取的依据。

2023-11-22 14:25:51 439

原创 基于C#实现树状数组

有一种数据结构是神奇的,神秘的,它展现了位运算与数组结合的神奇魅力,太牛逼的,它就是树状数组,这种数据结构不是神人是发现不了的。

2023-11-22 14:25:20 479

原创 基于C#实现Bitmap算法

在所有具有性能优化的数据结构中,我想大家使用最多的就是 hash 表,是的,在具有定位查找上具有 O(1)的常量时间,多么的简洁优美,但是在特定的场合下:①:对 10 亿个不重复的整数进行排序。②:找出 10 亿个数字中重复的数字。当然我只有普通的服务器,就算 2G 的内存吧,在这种场景下,我们该如何更好的挑选数据结构和算法呢?

2023-11-22 14:24:49 721

原创 基于C#实现协同推荐 SlopeOne 算法

// 评分实体类/// 记录差值set;/// 记录评分人数,方便公式中的 m 和 n 的值set;/// 记录打分用户的ID/// 平均值/// 产品类set;set;/// 对产品的打分set;

2023-11-21 17:04:19 879 1

原创 基于C#实现KMP算法

这句话的意思也就是说,在模式 P 中,前 k 个字符与 j 个字符之前的 k 个字符相同,比如说:“abad”的最大前缀真子串为“aba",最大后缀真子串为“bad”,当然这里是不相等,这里的 0<k<j,我们希望 k 接近于 j,那么我们滑动的距离将会最小,好吧,现在我们用 next[j]来记录失配时模式串应该用哪一个字符于 Si 进行比较。= Pj 的时候,我们可以看到满足如下关系式 Si-jSi-j+1…Sn-1=P0P1…若 Pj=Pk2, 则 next[j+1]=k2+1=next[k]+1。

2023-11-21 17:03:25 282

原创 基于C#实现AC自动机算法

我要检查一篇文章中是否有某些敏感词,这其实就是多模式匹配的问题。当然你也可以用 KMP 算法求出,那么它的时间复杂度为 O(c*(m+n)),c:为模式串的个数。m:为模式串的长度,n:为正文的长度,那么这个复杂度就不再是线性了,我们学算法就是希望能把要解决的问题优化到极致,这不,AC 自动机就派上用场了。其实 AC 自动机就是 Trie 树的一个活用,活用点就是灌输了 kmp 的思想,从而再次把时间复杂度优化到线性的 O(N),刚好我前面的文章已经说过了 Trie 树和 KMP,这里还是默认大家都懂。

2023-11-21 17:02:42 310

原创 基于Python(Pandas+Pyecharts)实现全国热门旅游景点数据可视化【500010037】

实现基于Python(Pandas+Pyecharts)实现全国热门旅游景点数据可视化1、数据处理1.1、读取数据1.2、查看索引、数据类型和内存信息1.3、查看数值型列汇总统计1.4、去除销量为0的行数据1.5、将缺失值用‘未知’填充1.6、按销量排序2、数据可视化2.1、销量前20热门景点数据2.2、假期出行数据全国地图分布2.3、各省市4A-5A景区数量柱状图2.4、各省市4A-5A景区数量玫瑰图2.5、各省市4A-5A景区数量阴影散点图2.6、各省市4A-5A景区地图分布

2023-11-21 16:17:53 1676 1

原创 基于C++实现循环赛日程表(分治算法)

递归地用这种一分为二的策略对选手进行划分,直到只剩下两个选手时,比赛日程表的制定就变得很简单。据此,将左上角小块中的所有数字按其相对位置抄到右下角,又将左下角小块中的所有数字按其相对位置抄到右上角,这样我们就分别安排好了选手1至选手4和选手5至选手8在后4天的比赛日程。以此类推,我们不难发现,我们可以用分治的方法实现,现自顶向下分解,直到分解到最简单的情况,即人数为2人,这时就可以两两比赛,表的填充为对角填充的方式,然后再自底向上填充表格,具体的看上面的k=1,k=2,k=3时形成的循环表就很好理解了。

2023-11-20 11:08:35 848

原创 基于C#实现最长公共子序列

这种方法是最简单,也是最容易想到的,当然时间复杂度也是龟速的,我们可以分析一下,刚才也说过了cnblogs的子序列个数有27个 ,延伸一下:一个长度为N的字符串,其子序列有2N个,每个子序列要在第二个长度为N的字符串中去匹配,匹配一次需要O(N)的时间,总共也就是O(N*2N),可以看出,时间复杂度为指数级,恐怖的令人窒息。不知道大家看懂了没?图大家可以自己画一画,代码完全是根据上面的公式照搬过来的,长度的问题我们已经解决了,这次要解决输出最长子序列的问题,我们采用一个标记函数 Flag[i,j],当。

2023-11-20 11:07:43 339

原创 基于C#实现字符串相似度

ABA”和“BBA”的编辑距离为 1,仔细发现我们可以得出如下结论,”ABA“是由 23 个子序列与”BBA“字符串求的的编辑距离集合中取出的最小编辑距离,也就是说在这种情况下我们出现了重复计算的问题,我在求子序列”AB“和”BBA"的编辑距离时,我是由子序列”A“和”BBA“与”B“和”BBA“之间的编辑距离中选出一个最小值,然而序列 A 和序列 B 早之前我已经计算过了,这种重复计算的问题有点像”斐波那契”,正好满足“动态规划”中的最优子结构和重叠子问题,所以我们决定采用动态规划来解决。

2023-11-20 11:06:59 448

原创 基于Python实现大型家用电器和电子产品在线商店购买数据分析【500010098】

1、进行用户消费趋势分析(按月)1.1、每月的消费总金额 1.2、每月的消费人数 2、进行品牌消费情况分析2.1、各品牌产品消费总金额2.2、各品牌用户数量3、用户个体消费分析3.1、用户消费金额、消费次数的描述性统计3.2、用户消费次数、消费金额散点图3.3、用户消费金额分布图3.4、用户消费次数分布图3.5、用户累计消费金额占比4、用户消费行为4.1、用户第一次消费4.2、用户最后一次消费4.3、新老客消费占比4.4、用户分层(RFM)5、用户生命周期(第一次和最后

2023-11-18 13:44:22 322 3

原创 基于C#实现五家共井

意思就是说五家人共用一口井,甲家的绳子用两条不够,还要再用乙家的绳子一条才能打到井水;丙家的绳子用四条不够,还要再用丁家的绳子一条才能打到井水;丁家的绳子用五条不够,还要再用戊家的绳子一条才能打到井水;上面的公式也就表明了 c 和 h 的比例关系,我们令 h=721k,则 c=148k,将其代入 ⑥,⑦,⑧,⑨,⑩ 可得如下方程组。我们再来看看文艺青年的想法,他们的想法是找 a,b,c,d,e 中的某个数与 h 的对应关系。首先我们看下普通青年的想法,他们的想法是找 a,b,c,d,e 之间的对应关系。

2023-11-16 14:22:42 134

原创 基于C#实现猴子偷桃

尾递归中在每次向下递归的过程中,都会将当前层的结果计算出来后向下一层传递,从理论上说,传到下一层后,上一层的参数值已经没有存在的必要了,可以清除上一层中的变量占用的栈空间,那么最终达到的效果就是永远不会出现 StackOverflowException 了,但实际上是否真有这个效果,得要看编译程序是否真的给你优化了。当我们玩转递归的时候,老师说线性递归会将“变量,参数,返回值”在“递”的过程中压栈,如果迟迟“递”不到头的话,栈就会越积越多,最后就爆掉了,window 中系统默认的堆栈空间是 1M。

2023-11-16 14:22:11 170

原创 基于C#实现百钱买百鸡

百钱买百鸡的问题算是一套非常经典的不定方程的问题,题目很简单:公鸡5文钱一只,母鸡3文钱一只,小鸡3只一文钱,用 100 文钱买一百只鸡,其中公鸡,母鸡,小鸡都必须要有,问公鸡,母鸡,小鸡要买多少只刚好凑足 100 文钱。由于只有100文钱,则5x<100 => 0<x<20, 同理 0<y<33,那么z=100-x-y,好,我们已经分析清楚了,下面就可以编码了。分析:估计现在小学生都能手工推算这套题,只不过我们用计算机来推算,我们可以设公鸡为 x,母鸡为 y,小鸡为 z,那么我们。令 ②x3-① 可得。

2023-11-16 14:21:40 158

原创 基于Python实现连锁咖啡店经营情况EDA分析【500010097】

从统计数据可以看到,销售额和利润前三的城市是:南京,徐州和苏州;平均销售额和平均利润最高的是上海。该连锁咖啡店目前共有100家店铺,716万的销售额,利润总额为383万,员工总数为1084人。普洱市的门店均价是最高的,为159.333元/平方米。平均利润率排名前三城市为:哈尔滨市,大庆市,广州市。

2023-11-15 15:44:03 434

原创 Java多线程入门

*Java线程有六个状态:**NEW(新建)、RUNNABLE(可运行)、BLOCKED(阻塞)、TIMED_WAITING(指定时间等待)、TERMINATED(终止)**进程:**每个进程都有独立的代码和数据空间(进程上下文),进程间的切换会有较大的开销,一个进程包含1–n个线程。**线程:**同一类线程共享代码和数据空间,每个线程有独立的运行栈和程序计数器(PC),线程切换开销小。注:括号代表重写的方法,方法名可省略,括号内部可传参数类型,大括号中是重写的方法内容,大括号外可传参数的值。

2023-11-15 10:58:38 45

原创 基于C++实现二叉排序树数据结构

二叉排序树或者是一棵空树,或者是具有如下特性的二叉树:若它的左子树不空,则左子树上所有结点的值均小于根结点的值若它的右子树不空,则右子树上所有结点的值均大于根结点的值它的左、右子树也都分别是二叉排序树。注:只要有一个结点不满足就不是二叉排序树通常,取二叉链表作为二叉排序树的存储结构// 左右孩子指针。

2023-11-15 10:53:41 207

2023年CBSA空气指数数据集 CSV 1W+记录(2023 Air Quality Data for CBSAs)

该数据集是根据EPA的空气质量指数每日值报告编制的。 此数据集包括以下字段:采取措施的日期、总体 AQI 值、主要污染物、测量AQI值的地点名称、测量 AQI 值的站点的 ID、整体AQI值的来源、臭氧水平、8 PM25 水平、一氧化碳水平、PM10水平、NO2 水平、AQI类别(良好、中等、不健康等)、城市名称、状态名称。 它包含以下都会区的数据:纽约州伊萨卡、伊利诺伊州芝加哥、佛罗里达州迈阿密、明尼苏达州明尼阿波利斯、北卡罗来纳州夏洛特、德克萨斯州达拉斯、北卡罗来纳州格林斯伯勒、宾夕法尼亚州州立大学、弗吉尼亚州里士满、北卡罗来纳州阿什维尔、佐治亚州雅典、马萨诸塞州波士顿、马里兰州巴尔的摩、密歇根州底特律、华盛顿、纽约州纽约市、宾夕法尼亚州费城、科罗拉多州丹佛、佛罗里达州奥兰多、俄亥俄州克利夫兰、俄勒冈州波特兰、亚利桑那州凤凰城、洛杉矶 (Los Angeles, CA)、夏威夷州卡胡卢伊、威斯康星州麦迪逊、北卡罗来纳州教堂山、加利福尼亚州旧金山、北卡罗来纳州罗利、德克萨斯州休斯顿、华盛顿州西雅图。 这些是CBSA中人口最多的城市 - 数据点可能包括附近其他地区的空气质量指标。

2024-05-08

2009年到2024年美国原油进口数据集 CSV 48.3W+记录(U.S. Crude Oil Imports)

该数据集提供了 2009 年至 2024 年每年按月划分的美国原油进口的详细信息。数据包括原产国、美国入境口岸、石油公司名称、原油类型和进口量(以千桶为单位)。 数据集以 CSV 格式提供,包含以下列:year 进口年份。month 导入的月份。originName 原油出口地的名称。originTypeName 原油出口地点的类型(例如国家、地区等)。destinationName 美国接收原油的地名。destinationTypeName 目的地类型(例如,港口、炼油厂)。gradeName 进口原油的等级或类型(例如,轻质低硫原油、重质原油)。quantity 进口原油的数量,以数千桶为单位。

2024-05-08

电动汽车保有量数据集 CSV 18W+记录(Electric Vehicle Population Data)

此数据集展示了通过华盛顿州许可部 (DOL) 注册的电池电动汽车 (BEV) 和插电式混合动力电动汽车 (PHEV)。它包括 VIN、县、城市、州、邮政编码、车型年份、品牌、型号、电动汽车类型、清洁替代燃料汽车 (CAFV) 的资格、电动续航里程、基本建议零售价、立法区、DOL 车辆 ID、车辆位置、电力公司和 2020 年人口普查区。

2024-05-08

美国青少年烟草综合数据集 CSV 1W+记录(Youth Tobacco Dataset)

该数据集旨在为各州提供有关初中生和高中生的全面数据,包括烟草使用、暴露于环境烟草烟雾、戒烟、学校课程、未成年人购买或以其他方式获得烟草制品的能力、对烟草的知识和态度,以及对支持烟草和反烟草媒体信息的熟悉程度。该数据集采用两阶段聚类样本设计,以生成初中(6-8 年级)和高中(9-12 年级)学生的代表性样本 该数据集对数据科学很有价值,因为它覆盖了近二十年的青少年烟草使用。其丰富的人口统计细节和广泛的地理分布使研究人员和政策制定者能够确定与青少年烟草使用相关的趋势、行为和风险因素。

2024-05-08

根据评分排名前 10,000 名的 Goodreads 书籍数据集 CSV(Top 10000 Books)

使用我们精心策划的数据集深入了解文学世界,其中包含来自 Goodreads 的前 10,000 本书,Goodreads 是一个以广泛收集读者评论和评级而闻名的领先平台。

2024-05-08

在校学生每日出勤率数据集 CSV 27W+ 记录(School Student Daily Attendance)

学校 DBN 注册、出席、缺席和发布的学生的每日列表(计数)。 每条记录都包括当天的日期、总入学人数、缺席、在场和释放的学生人数。这些结构化数据对于了解日常出勤趋势、学生参与度以及学校环境随时间推移的运营动态至关重要。 从数据科学的角度来看,该数据集是分析教育趋势、出勤模式及其与学业成绩和其他社会经济因素的相关性的宝库。分析这些模式随时间推移或跨不同学校可以帮助确定关键问题,例如长期旷课、出勤政策的有效性以及外部因素对学生出勤的影响。

2024-05-07

国际象棋游戏数据集 CSV 2W+场次 (Lichess)

这是一组从网站上的精选用户那里收集的 20,000 多款游戏 Lichess.org,以及如何收集更多游戏。我还将在未来收集更多游戏时上传它们。此套装包含:游戏 ID;额定值 (T/F);开始时间;结束时间;匝数;游戏状态;胜利者;时间增量;白色玩家 ID;白人球员评分;黑色玩家 ID;黑人球员评分;所有动作均采用标准国际象棋符号;Opening Eco(任何给定开口的标准化代码,在此处列出); 开场名称;开盘(开盘阶段的移动次数)

2024-05-07

蘑菇数据集 CSV 5.4W+记录(Mushroom Dataset)

此数据集提供的原始二元分类蘑菇数据集的清理版本。该数据集使用各种技术进行清理,例如模态插补、单热编码、z 分数归一化和特征选择。它包含 9 列:直径、形状、鳃附着、鳃色、阀杆高度、阀杆宽度、茎颜色、季节、目标类 - 可食用与否? 目标类包含两个值 - 0 或 1 - 其中 0 表示可食用,1 表示有毒。

2024-05-07

2024年前1000名动漫数据集 CSV(Top Anime Dataset)

该数据集提供了 2024 年热门动漫的全面概述,可用于构建推荐系统、可视化动漫受欢迎程度和分数趋势、预测分数和受欢迎程度等。 数据集包含 22 个特征: 得分:分配给每个动漫标题的评级或分数。 人气:衡量每部动漫在观众中的受欢迎程度。 排:数据集中每个动漫标题的排名。 成员:与每个动漫关联的成员或观看者的数量。 描述:每部动漫的情节和主题的简要概述或摘要。 同义词:用于每部动漫的替代标题或同义词。 日文片名:日文动画的原标题。 英文片名:动画的英文翻译标题。 类型:动漫类型的分类(例如,电视剧、电影、OVA 等)。 每股收益:每个动漫系列的总集数。 地位:动漫的当前状态(例如,正在进行、已完成等)。 播出:动画播出的日期范围。 首演:动画首次首映的日期。 广播:有关广播平台或频道的信息。 生产者:参与制作动画的公司或工作室。 许可方:持有动漫许可权的组织或公司。 制片厂:负责制作动画的动画工作室。 源:动漫的原始素材(例如,漫画、小说、原创)。 流派:动漫所属的类别或流派。 人口:动漫的目标受众群体(例如,少年、少女、少女、城明)。 期间:每集或电影的持续时间。 额定值:分配给每部动漫的内容分级(例如,G、PG、PG-13、R)。

2024-05-07

艾滋病病毒感染数据集 CSV 7.2W+记录(AIDS Virus Infection Prediction)

数据集包含有关已诊断患有艾滋病的患者的医疗保健统计数据和分类信息。 包含字段: 时间:失败或审查的时间 trt:处理指示器(0 = 仅 ZDV;1 = ZDV + ddI,2 = ZDV + Zal,3 = 仅 ddI) 年龄:基线时的年龄(岁) WTKG:基线时体重 (kg) 血:血友病(0=否,1=是) 同性恋:同性恋活动(0=否,1=是) 药物:静脉注射吸毒史(0=否,1=是) karnof:Karnofsky 评分(0-100 分) oprior:175 年之前的非 ZDV 抗逆转录病毒治疗(0 = 否,1 = 是) z30:175 之前 30 天内的 ZDV(0=否,1=是) Preanti:175 年前的抗逆转录病毒治疗 种族:种族(0=白人,1=非白人) 性别:性别(0=F,1=M) STR2:抗逆转录病毒病史(0=幼稚,1=有经验) strat:抗逆转录病毒病史分层(1='抗逆转录病毒幼稚',2='> 1 但 <= 52 周的既往抗逆转录病毒治疗',3='> 52 周) 症状:症状指示器(0=渐近,1=symp) treat:治疗指示器(0=仅 ZDV,1=其他) offtrt:96+/-5 周前的 off-trt 指标(0=否,1=是) CD40:基线时的CD4 CD420:20+/-5 周时的 CD4 CD80:基线时的 CD8 CD820:20+/-5 周时的 CD8 感染者:感染了艾滋病(0=否,1=是)

2024-05-07

电子商店销售数据集 CSV 104W+记录(Electronic store sales data)

包含数据的文件名为“test.csv”。它代表了 2 年期间的产品统计数据。数据中可能存在噪声,这在现实世界中很常见。 列说明: date- 活动日期。 id- 产品的唯一标识符。 category_id- 产品类别的唯一标识符。 sales- 给定日期的产品总销售额。 views- 产品在网站上的总浏览量。一个用户可能会生成多个视图,也可能根本没有视图(不仅可以通过网站进行购买)。 price_cost- 产品的成本价。 price_retail- 产品的零售价(如果产品亏本出售,可能会低于成本价)。

2024-05-06

汽车质量投诉数据集(20240129-0429) CSV 4.6K+记录

数据集共有8个字段:投诉编号、投诉品牌、 投诉车系、 投诉车型、投诉简述、 投诉问题、问题类型、投诉日期。

2024-05-06

抑郁非抑郁推文数据集 CSV 13W+记录 (Depressive Non-Depressive Tweets Data)

2019 年 12 月至 2020 年 12 月期间的抑郁/非抑郁推文主要来自印度和印度次大陆的部分地区。使用文本 blob 分配的情绪分数。推文是专门提取的,同时牢记使用 SentiWord 和各种研究出版物访问的前 250 个最常用的否定词典和正面词典。

2024-05-06

HR 部门员工满意度数据集 CSV 1.5W+记录(HR Analytics Data Set)

此顶点项目中使用的数据集来自 Google 高级数据分析课程。它包含与员工有关的综合属性集合,从人口统计细节到与工作相关的因素。该分析的主要目的是预测员工流动率并辨别导致员工流失的潜在因素。 数据集包含列:满意度、上次评估、项目数量、平均每月小时数、时间花费公司、工伤事故、最近 5 次促销、年、部门、工资

2024-05-06

肝硬化分期分类数据集 CSV 2.5W+记录(Liver Cirrhosis Stage Classification)

肝硬化是由长期的肝损伤引起的,导致广泛的疤痕,通常是由于肝炎或长期饮酒等疾病所致。所提供的数据来自妙佑医疗国际于 1974 年至 1984 年进行的一项关于肝脏原发性胆汁性肝硬化 (PBC) 的研究。 包含字段:移植或研究分析时间、状态、药品、年龄、性别、腹水、肝肿大、蜘蛛、水肿、胆红素、胆固醇、白蛋白、尿铜、碱性磷酸酶、SGOT、三格列苷类、血小板、凝血酶原、分期。

2024-05-06

基于Python实现心脏病数据可视化DEA+预测【500010103.1】

该数据集由 1190 个实例和 11 个特征组成。 实现功能: 1、类别统计 2、分类参数对心脏病诊断的影响 3、配对图显示诊断标记的患者之间的数值数据分布 4、显示心脏病患者和非心脏病患者数值均值的条形图 5、显示心脏病患者和非心脏病患者的数值分布和异常值的箱线图 6、Kdeplots、条形图、箱线图显示无心脏病患者的数值分布 7、缩放值并拆分为训练和测试批次 8、模型 9、评估预测

2024-04-25

心脏病数据集(1190 个实例和 11 个特征)【500010103】

该心脏病数据集是通过组合 5 个已经独立可用但以前未合并的流行心脏病数据集来策划的。在这个数据集中,5 个心脏数据集结合了 11 个共同特征,使其成为迄今为止可用于研究目的的最大心脏病数据集。 该数据集由 1190 个实例和 11 个特征组成。这些数据集被收集并组合在一个地方,以帮助推进与CAD相关的机器学习和数据挖掘算法的研究,并希望最终推进临床诊断和早期治疗。

2024-04-25

俄亥俄州公立大学高等教育员工工资数据集 CSV 93W+记录(University Employee Salaries)

大学雇员工资(2011年至今)了解俄亥俄州公立大学高等教育员工自 2011 年以来的工资。 该数据集提供了对多个机构中各种职位收益的见解。请注意,福利不包括在报告的工资中。

2024-04-17

房价数据集 CSV 2.1W+记录(Housing Price Dataset)

房价数据集提供了全面的房产列表集合,包括各种属性,例如卧室、浴室的数量、居住面积、地块大小和位置详细信息。该数据集对于广泛的数据分析和机器学习应用非常宝贵。例如,它可以用于预测建模,根据位置、便利设施和状况等特征预测房地产价格。此外,它还可以帮助识别房地产市场的趋势和模式,帮助投资者、房地产经纪人和政策制定者做出明智的决策。此外,该数据集可以作为为购房者开发推荐系统的基础,引导他们选择符合他们偏好和要求的房产。总体而言,房价数据集为利用数据驱动的方法来有效理解和驾驭住房市场提供了丰富的见解和机会。

2024-04-17

客户购买行为数据集 CSV 10W条记录(Customer Purchases Behaviour Dataset)

该数据集包含表示客户购买行为的模拟数据。它包括各种功能,例如年龄、性别、收入、教育程度、地区、忠诚度状态、购买频率、购买金额、产品类别、促销使用情况和满意度分数。

2024-04-17

甲状腺疾病数据集 CSV 380+记录(Thyroid Disease Data)

该数据集包含 13 个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集的收集时间为 15 年,每位患者至少随访 10 年。 包含内容: 年龄:患者在诊断或治疗时的年龄。 性别:患者的性别(男性或女性)。 吸烟:患者是否吸烟。 吸烟史:患者的吸烟史(例如,他们是否曾经吸烟)。 Hx 放疗:任何病症的放疗史。 甲状腺功能:甲状腺功能的状态,可能表明是否有任何异常。 体格检查:对患者进行体格检查的结果,可能包括触诊甲状腺和周围结构。 淋巴结肿大:颈部区域是否存在淋巴结肿大(淋巴结肿大)。 病理学:通过活检样本的病理学检查确定的特定类型的甲状腺癌。 局灶性:癌症是单灶性(局限于一个部位)还是多灶性(存在于多个部位)。 风险:基于各种因素的癌症风险类别,例如肿瘤大小、扩散程度和组织学类型。 T:根据肿瘤的大小和对附近结构的侵袭程度对肿瘤进行分类。 N:淋巴结分类,表明淋巴结受累。 M:转移分类,表明存在或不存在远处转移。 分期:癌症的总体分期,通常通过结合 T、N 和 M 分类来确定。 反应:对治疗的反应,表明癌症在治疗后是积极、消极还是保持稳定。 复发:表示癌症在初始治疗后是否复发。

2024-05-29

可再生能源系统数据集 CSV 1.5W 记录(renewable energy systems)

数据集说明: 该数据集包含有关各种可再生能源系统的详细信息,包括装机容量、能源生产、消耗、存储、投资和环境影响。目标是提供可再生能源的全面视图,有助于可持续能源领域的研究和分析。 变量: Type_of_Renewable_Energy:代表可再生能源类型的数字代码(1:太阳能,2:风能,3:水力发电,4:地热能,5:生物质能,6:潮汐能,7:波浪能)。 Installed_Capacity_MW:装机容量(兆瓦)。 Energy_Production_MWh:年发电量(兆瓦时),单位为兆瓦时(MWh)。 Energy_Consumption_MWh:年能耗,单位为兆瓦时 (MWh)。 Energy_Storage_Capacity_MWh:以兆瓦时 (MWh) 为单位的储能容量。 Storage_Efficiency_Percentage:储能系统的效率百分比。 Grid_Integration_Level:表示电网集成水平的数字代码(1:完全集成,2:部分集成,3:最小集成,4:隔离微电网)。 Initial_Investment_USD:以美元计价的初始投资成本。 Funding_Sources:代表资金来源的数字代码(1:政府,2:私人,3:公私伙伴关系)。 Financial_Incentives_USD:以美元计价的财政激励措施。 GHG_Emission_Reduction_tCO2e:减少温室气体排放量(吨二氧化碳当量),单位为吨二氧化碳当量(tCO2e)。 Air_Pollution_Reduction_Index : 空气污染减少指数。 Jobs_Created:创建的作业数。

2024-05-29

星巴克股价数据集 CSV 8K+记录(Starbucks Stock Price)

星巴克公司是一家全球知名的咖啡连锁店,由 Jerry Baldwin、Zev Siegl 和 Gordon Bowker 于 1971 年在华盛顿州西雅图创立。从一家销售高品质咖啡豆和设备的商店开始,星巴克已发展成为世界上最大的咖啡连锁店之一,在全球拥有数千家门店。星巴克以其优质咖啡、创新饮料和独特的客户体验而闻名,已成为咖啡行业的文化偶像。 该数据集提供了星巴克多年来(过去 25 年)股价变化的全面记录。它包括日期、开盘价、当日最高价、当日最低价、收盘价、调整后收盘价和交易量等关键列。 这些数据对于进行历史分析、预测未来股票表现以及了解与星巴克股票相关的市场趋势非常宝贵。

2024-05-29

1950 年至 2024 年的 F1 比赛结果数据集 CSV(F1 Races Results)

该数据集包含从 1950 年首个赛季到 2024 年最新可用数据的一级方程式比赛获胜者的综合记录。它细致地记录了胜利的车手、他们各自的车队以及他们获得胜利的赛道,为这项享有盛誉的赛车运动的演变提供了丰富的历史视角。这份内容广泛的汇编不仅证明了几十年来登上领奖台的车手的技能和决心,而且还提供了对竞争动态和技术进步的宝贵见解,这些动态和技术进步在其辉煌的历史中塑造了这项运动的叙事。无论是用于统计分析、历史研究还是纯粹的爱好者好奇心,该数据集都是探索 F1 赛车迷人传奇的权威资源。

2024-05-29

心力衰竭临床记录数据集 CSV 5K记录(Heart Failure Prediction)

该数据集包含 5000 名心力衰竭患者的医疗记录,这些患者在随访期间收集,其中每个患者档案有 13 个临床特征。 属性信息: 年龄:患者年龄(岁) 贫血:红细胞或血红蛋白(布尔值)减少 肌酐磷酸激酶 (CPK):血液中 CPK 酶的水平 (mcg/L) 糖尿病:如果患者患有糖尿病(布尔值) 射血分数:每次收缩时离开心脏的血液百分比(百分比) 高血压:如果患者患有高血压(布尔值) 血小板:血液中的血小板(千血小板/mL) 性别:女人或男人(二元) 血清肌酐:血液中血清肌酐水平 (mg/dL) 血清钠:血液中血清钠水平(mEq/L) 吸烟:患者是否吸烟(布尔值) 时间:随访期(天) DEATH_EVENT:如果患者在随访期间死亡(布尔值)

2024-05-29

基于Python实现 HR 分析(逻辑回归和基于树的机器学习)【500010104】

基于Python实现 HR 分析(逻辑回归和基于树的机器学习) 1、数据探索(初始EDA和数据清理):收集数据的基本信息、重命名列、检查缺失值、检查重复、检查离群值; 2、数据可视化:根据项目比较留下来的员工和离开的员工、平均每月工作时间和满意度、根据任期比较留下来的员工和离开的员工、月平均工作时间和上次评估、平均月工作时间和最近5年的晋升之间的关系、根据部门比较留下来的员工和离开的员工、项目数、月工作时间、考核分数三者关系; 3、建立Logistic回归模型:数据集的热图、各部门离职和留职员工的数量; 4、建立基于树的模型:数据处理、决策树-1至2轮、随机森林-1至2轮、特性、混淆矩阵、决策树分裂、决策树特征重要性、随机森林特征重要性;

2024-05-22

伦敦共享单车数据集 CSV 77W+记录(London Bike-Share Usage Dataset)

伦敦交通局的自行车租赁计划在伦敦各地提供公共自行车出租,促进可持续交通和市民健康出行。 本数据集包含了 2023年8月1日 - 8月31日 期间伦敦交通局(TfL)自行车租赁系统的 776,527 次详细记录。 Number 每次出行的唯一标识符(Trip ID) Start Date 出行开始的日期和时间 Start Station Number 起始站的标识符 Start Station 起始站的名称 End Date 出行结束的日期和时间 End Station Number 终点站的标识符 End Station 终点站的名称 Bike Number 所使用自行车的唯一标识符 Bike Model 所使用自行车的型号 Total Duration 出行的总时间(时分秒) Total Duration (ms) 出行的总时间(毫秒)

2024-05-17

NHIS视力和眼睛健康监测数据集 CSV 7W+记录

该数据集是来自 NHIS 的视力和眼睛健康数据指标的去识别化汇总表,按年龄组、种族/民族、性别和风险因素的所有可用组合进行分层。NHIS是由CDC国家卫生统计中心进行的年度家庭调查,旨在监测疾病、残疾和实现国家卫生目标的进展趋势。大约样本量为每年35,000个家庭和87,500人。VEHSS的NHIS数据包括与视觉功能相关的问题。对于小于 30 人的细胞大小或相对标准误差超过平均值 30% 的数据被抑制。

2024-05-11

足球运动员工资数据集 CSV 4W+记录(Football Player Salaries Dataset)

截至 2023-24 赛季夏季转会窗口,工资是最新的。数据是从游戏FM24中提取的。它包含 40,000 名玩家的数据。这是我之前的 2022 年工资数据集的更新和更好版本。它有更多的数据和更好的功能,以及它的清理/转换版本。

2024-05-10

世界人口增长率数据集 1961-2022 CSV (World Population Growth)

该数据集包含全球所有国家/地区的增长率(以百分比为单位)以及一些子类别,例如基于财务状况。 数据从 1961 年到 2022 年,步长=1。

2024-05-10

水质数据集 CSV 104W+样本(Water Quality)

该数据集包含从该地区的普吉特海湾、湖泊和溪流收集的水质样本。 包含字段: 样品 ID:每个样品的唯一标识符。 抓取 ID:与示例关联的特定抓取实例的标识符。 配置文件 ID:与示例关联的配置文件的标识符。 样品编号:分配给每个样品的序列号。 收集日期时间:收集样本的日期和时间。 深度 (m):收集样品的深度,以米为单位。 场地类型:采集样本的场地类型(例如,河流、湖泊、水井)。 区域:采集样本的地理区域或区域。 定位器:指示样品精确位置的定位器信息。 地点:采集样本的特定地点或位置。 参数:在样品中测量或分析的参数(例如,pH值、溶解氧)。 值:在样本中测量的参数值。 单位:参数值的度量单位。 QualityId:指示数据质量的标识符。 实验室鉴定器:实验室分配的鉴定器,指示样品的任何特殊条件或特征。 MDL(Method Detection Limit):参数的方法检测限。 RDL(报告检测限):报告参数的检测限。 文本值:参数值的文本表示形式。 示例信息:与示例相关的其他信息。 监管员说明:数据监管员提供的注释或注释。 重复数:样品的重复数。 Replicate Of:指示此副本的样本的标识符。 方法:用于分析或测量的方法。 分析日期:分析样品的日期。 数据源:数据源。

2024-05-10

钻石销售数据集 CSV 5W+记录(Diamonds Sale Data)

该数据集包含近 54,000 颗钻石的价格和其他属性。

2024-05-10

亚洲国内生产总值数据集 CSV(Asia GDP)

与亚洲GDP(国内生产总值)相关的数据集通常包含有关亚洲大陆各国经济表现和趋势的大量信息。这些数据集包括各种指标,例如 GDP 增长率、人均 GDP、部门对 GDP 的贡献(如农业、工业和服务业)、通货膨胀率、贸易差额和其他经济指标。

2024-05-10

印度2017-2019城市用电量数据集 CSV (Indian Cities Electricity Consumption)

该数据集全面概述了印度城市各个部门的用电量,重点关注家庭、商业、工业、公共基础设施和其他用途等关键指标。 数据集的组成部分: 城市:此列列出了记录其用电数据的印度不同城市的名称。 年份:表示消费数据对应的具体年份。 电力消耗(十万单位): 家庭用途:表示每个城市家庭使用的电量,以十万单位衡量。 商业用途:表示商业活动(如商业和办公室)的用电量。 工业用途:反映各城市内工业活动的用电量。 公共供水工程和路灯:表示公共基础设施(如街道照明和自来水工程)的用电量。 其他:包括超出指定类别的电力消耗的任何其他目的。 总用电量:显示结合上述所有部门的总用电量。 百分比分布: 提供特定城市或年份不同用途的用电量百分比分布。 例如,“那格浦尔”和“瓦拉纳西”在某些年份的百分比分布中分别被提及,表明它们在各个部门的电力消耗份额。 唯一值:指示每个类别中存在的唯一值的计数,在此数据集中似乎为 47。 NA 值:表示任何缺失或未记录的数据,在此数据集中表示为“NA”。

2024-05-09

禽流感数据集 H5N1 CSV 1.6W+记录(Bird Flu Dataset)

该数据集提供了对禽流感(俗称“禽流感”)在爱尔兰的分布和潜在传播的全面见解。禽流感是一种传染性极强且通常致命的病毒性疾病,主要影响鸟类,野生迁徙水鸟是该病毒的主要宿主。 该数据集包括 1980 年至 2020 年在爱尔兰捕获的鸟类物种信息,重点关注针对 H5N1 禽流感毒株的物种。了解这些鸟类的地理分布对于评估禽流感进入爱尔兰的风险至关重要,尤其是在迁徙季节,野生鸟类到达并聚集在湿地上,可能与常驻物种混合。

2024-05-09

心力衰竭临床记录数据集 CSV 5K+记录(Heart Failure Prediction)

该数据集包含 5000 名心力衰竭患者的医疗记录,这些患者在随访期间收集,其中每个患者档案有 13 个临床特征。 特征包含: 年龄:患者年龄(岁) 贫血:红细胞或血红蛋白(布尔值)减少 肌酐磷酸激酶 (CPK):血液中 CPK 酶的水平 (mcg/L) 糖尿病:如果患者患有糖尿病(布尔值) 射血分数:每次收缩时离开心脏的血液百分比(百分比) 高血压:如果患者患有高血压(布尔值) 血小板:血液中的血小板(千血小板/mL) 性别:女人或男人(二元) 血清肌酐:血液中血清肌酐水平 (mg/dL) 血清钠:血液中血清钠水平(mEq/L) 吸烟:患者是否吸烟(布尔值) 时间:随访期(天) DEATH_EVENT:如果患者在随访期间死亡(布尔值)

2024-05-09

美国梅赛德斯奔驰价格数据集 CSV 2.4K+记录(USA Mercedes Benz Prices Dataset)

该数据集提供有关美国汽车列表的信息,重点关注梅赛德斯-奔驰汽车的各种型号。数据集包括以下字段: 名称:汽车的名称和型号。 里程:汽车的里程,以英里为单位。 评分:汽车经销商的平均评分。 评论计数:汽车经销商的评论数量。 价格:以美元为单位的汽车价格。 该数据集涵盖了不同年份的一系列梅赛德斯-奔驰车型,提供了对其里程、评级、评论和价格的见解

2024-05-09

全球前 100 个城市的温度数据集 CSV(Top 100 Cities Weather Dataset)

该数据集提供截至 2024 年 4 月 28 日全球前 100 个城市的温度数据。它由七列组成,每列都提供特定信息,以了解不同城市的天气状况。数据集包括以下列: 1.城市:城市的英文名称。此列提供每个城市的官方名称或常用名称。城市名称对于识别与天气数据相关的地理位置至关重要。 2.温度(°C):2024年4月28日每个城市记录的温度。温度以摄氏度 (°C) 为单位测量,代表给定日期指定位置的平均大气温度。它是天气分析中的重要参数,指示空气的温暖或寒冷。 3.风速(m/s):在每个位置测量的平均风速,单位为米/秒(m/s)。风速是空气分子运动的量度,是天气预报和分析的重要因素。 4.纬度(°):每个城市的纬度坐标,以度表示。纬度测量地球表面某个位置相对于赤道的南北位置。正值表示北半球的位置,负值表示南半球的位置。纬度范围从-90°(南极)到+90°(北极),赤道为0°。 5.经度(°):每个城市的经度坐标,以度表示。经度测量地球表面上某个位置相对于本初子午线的东西向位置。正值表示本初子午线以东的位置,负值表示本初子午线以西的位置。经度范围从-180°(西)到+180°(东),本初子午线为0°。 6. 描述:本专栏提供 2024 年 4 月 28 日各城市主要天气状况的详细信息。它包括晴朗的天空、散云、破碎的云、阴云和少云等描述,表示观测时的云量和天空能见度。 7. 国家/地区:此列包含每个城市所属国家/地区的名称。它提供有关城市及其各自国家/地区的信息。

2024-05-09

NBA比赛数据集 (1997-2023)27个赛季(NBA Play-by-Play Data)

从过去 27 个赛季的 NBA.com 中抓取的逐场比赛数据,包括: 16,215,625 游戏事件 33,800 游戏 5,585,654 次拍摄 我将在 2023-24 赛季结束时用数据更新这个数据集。

2024-05-09

骨折和非骨折的 X 射线图像数据集 1W+图片(Bone Fracture Multi-Region X-ray Data)

该数据集包括骨折和非骨折的 X 射线图像,涵盖所有解剖身体区域,包括下肢、上肢、腰椎、臀部、膝盖等。数据集分为训练文件夹、测试文件夹和验证文件夹,每个文件夹都包含断裂和非断裂的射线照相图像。该数据集包含 10,580 张射线照相图像(X 射线)数据。训练数据-图像数量:9246;验证数据-图像数量: 828;测试数据-图像数量: 506。

2024-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除