Mrrunsen-CSDN博客

原创《R 语言卡方检验全解析：手写代码实现与详细步骤》卡方检验

卡方检验（Chi-Square Test）是一种常用的统计方法，主要用于检验分类变量之间的独立性或拟合优度。在医学、社会科学等领域中，卡方检验常用于分析两个或多个分类变量之间的关系。以下是卡方检验的全面解析，包括实现代码和手写公式。χ2∑EiOi−Ei2OiEidfr−1c−1rcdfk−1k如果卡方统计量大于临界值，或 p 值小于显著性水平（如 0.05），则拒绝原假设。

2025-02-12 08:25:44 628

原创全面解析R语言中的方差检验

本文将详细介绍R语言中的方差检验方法，包括单因素方差分析、双因素方差分析、重复测量方差分析等，并通过实例代码和图表进行演示。本文详细介绍了R语言中的方差检验方法，包括单因素方差分析、双因素方差分析和重复测量方差分析。方差分析是一种强大的统计工具，能够帮助研究者比较不同组之间的均值差异，从而得出科学的结论。在实际应用中，研究者应根据实验设计和数据特点选择合适的方差分析方法，并注意满足方差分析的基本假设。假设我们有一个实验，研究两种不同的肥料（A和B）和两种不同的光照条件（低光和高光）对植物生长的影响。

2025-02-09 14:01:55 398

原创全面解析R语言中的t检验

t检验是用于比较两个群体的均值是否存在显著差异的统计方法。

2025-02-07 08:34:37 341

原创 RNA-seq数据生成与差异表达分析

通过以上步骤，生成模拟的RNA-seq数据，并使用DESeq2或edgeR进行差异表达分析。

2025-02-04 10:25:50 271 1

原创医学基因表达热图和火山图分析绘制

火山图需要差异基因的。

2025-02-04 09:24:19 532

原创 tmap绘制中国地图

如果你有中国地图的 GeoJSON 或 Shapefile 文件，可以使用sfchina_map <- st_read("path/to/china.geojson") # 加载 GeoJSON 文件你可以通过调整参数来自定义地图的样式。tm_polygons(col = "lightblue", # 填充颜色border.col = "black", # 边界颜色border.alpha = 0.5) + # 边界透明度tm_layout(title = "中国地图", # 标题。

2025-02-04 08:42:41 335

原创使用ggsci包实现SCI期刊标准配色方案

ggsci包为R语言用户提供了丰富的配色方案，能够轻松实现SCI期刊的标准配色。通过简单的函数调用，你可以将这些配色方案应用到ggplot2绘制的图表中，使你的图表更加专业和美观。

2025-02-04 08:29:31 511

原创如何用Tushare获取金融数据

Tushare提供以下股票行情数据：日线行情、周线行情、月线行情、复权行情、复权因子、每日停复牌信息、每日指标、个股资金流向、每日涨跌停价格、沪深港通资金流向、沪深股通十大成交股、港股通十大成交股、港股通每日成交统计、港股通每月成交统计等。Tushare提供的市场参考数据包括：融资融券交易汇总、融资融券交易明细、融资融券标的、前十大股东、前十大流通股东、龙虎榜每日明细、龙虎榜机构明细、股权质押统计数据、股权质押明细、股票回购、限售股解禁、大宗交易、股东人数、股东增减持等。

2024-08-10 15:27:53 3065 2

原创什么是提示工程师

作为一个提示工程师，创建文本生成任务的提示模板时，主要任务是创建一个具有指导意义的上下文或起始文本，引导模型生成预期的内容。作为一个提示工程师，创建摘要生成任务的提示模板需要提供足够的指示，让模型明白需要从给定的文本中提取主要信息并生成简洁的摘要。作为一个提示工程师，创建问题回答任务的提示模板需要提供清晰的问题及相关上下文，以指导模型产生预期的答案。但这只是一种基本的模板，更复杂的翻译任务中，可能需要进一步优化模板，如对话翻译、古诗词翻译等都需要对模板进行针对性的调整，以便模型能产出更符合期望的结果。

2024-08-09 06:44:20 1736

原创神经网络-RoBERTa

为了避免在每轮训练中每个训练实例都使用相同的mask，训练数据被复制了10倍，这样在每个40个训练周期的训练中，每个序列都以10种不同的方式被masked。然而，当建模大量多样化的语料库时，如本工作中考虑的语料库，Unicode字符可以占据这个词汇量的一个相当大的部分。遵循Radford等人（2019）的方法，我们考虑使用一个更大的字节级BPE词汇表来训练BERT，该词汇表包含50K子词单位，而无需对输入进行额外的预处理或分词。这些子词不是预先定义的单词，而是通过分析训练语料库中的统计数据自动提取的。

2024-08-09 06:40:06 3882

原创 AutoDis 一文小结

AutoDis 一文小结这篇文章介绍了AutoDis，一个创新的框架，旨在解决推荐系统中点击率（CTR）预测的一个关键问题：如何有效地嵌入数值特征。在现有的CTR预测模型中，数值特征的嵌入通常受限于固定数量的参数，导致模型无法充分捕捉特征之间的复杂交互，或者依赖于无法与模型目标共同优化的硬离散化规则。要解决的问题：现有模型通常忽视了嵌入模块在处理数值特征时的重要性。数值特征的传统嵌入方法（如规范化和离散化）存在性能瓶颈，例如低容量问题、两阶段问题（TPP）、相似值

2024-08-09 06:38:29 1377

原创大模型调用外部工具的实战指南

未来，LangChain将继续提供更多强大的组件和工具，支持更多类型的数据源和模型，以满足开发者对复杂LLM应用的需求。需要注意的是，LangChain本身是一个框架，它提供了一系列的工具和组件来支持上述流程中的各个环节，但具体的实现细节会根据项目的具体需求和所使用的技术栈而有所不同。LangChain可以理解为：在一个流程的整个生命周期中，管理和优化prompt，根据prompt使用不同的代理进行不同的动作，在这期间使用内存管理中间的一些状态，然后使用链将不同代理之间进行连接起来，最终形成一个闭环。

2024-08-09 06:36:03 1243

原创大数据技术与应用课程设计基于 Spark的出租房屋大数据分析

类型2-面积适中，租金适中，适合合租、一家人租住；在实现这个项目的过程中，我认为最重要的是对数据的预处理，通过对数据进行清洗和去重，可以保证得到准确的分析结果。此次项目是分析广东七地二手房的房子情况，数据是来自链家的二手房，此次的爬取的数据是2023年5月最新的数据，数据包含了十个字段，都是爬取后在excel做了简单的数据预处理，最后导入虚拟机。通过雷达图可以清楚的分析在相同的环境下，深圳与佛山两地二手房的价格差别，本次选取租房中的房间数量、平均面积、均价、楼层层数、客厅数量五个指标进行可视化。

2024-07-04 07:52:07 2984 4

原创 R语言 Markowitz均值-方差模型（Mean-Variance Model）

该模型通过考虑资产的预期收益和风险（通常用方差或标准差表示），帮助投资者找到最优的资产组合。这个模型帮助我们在考虑风险和收益的情况下，找到最优的资产组合。您可以根据自己的需求调整股票列表和时间范围，进一步优化和测试您的投资组合。Markowitz模型的目标是找到一组权重 $\mathbf{w} )，使得在给定风险水平下，投资组合的预期收益最大化，或者在给定预期收益下，投资组合的风险最小化。投资者可以根据自己的风险偏好和收益目标，通过模型找到最优的资产配置策略。为投资组合的权重向量，为资产的预期收益向量，

2024-06-17 08:29:34 1172

原创基于Tushare数据的最小风险组合与最大夏普比率组合分析

我们选择了5只股票，分别是中国银行（601988.SH）、贵州茅台（600519.SH）、海通证券（600837.SH）、上海机场（600009.SH）和宁德时代（300750.SZ），数据时间范围为2020年1月1日至2024年6月1日。通过上述分析，我们得出了最小风险组合和最大夏普比率组合的预期收益率，并对其权重分布进行了可视化展示。本次分析展示了如何利用Tushare平台获取数据，并使用R语言进行数据处理和投资组合优化，为实际投资决策提供了理论依据和数据支持。然后，对数据进行清理以确保数据完整性。

2024-06-17 08:10:58 558

原创 R语言计算最小化风险的最优权重

在金融市场中，如何优化投资组合以最大化收益并最小化风险是一个重要的研究课题。本文将展示如何使用 R 语言结合 Tushare 数据接口获取股票数据，并通过现代投资组合理论计算最优投资组合。具体来说，我们将使用五只股票的数据，并基于这些数据计算最小化风险的最优权重。

2024-06-17 07:49:49 430

原创如何高效阅读人工智能研究论文

导读: 在刚迈入科研时，人人都说读论文很重要，但是很少有人能完整地教你应该如何读论文。论文不仅揭示了行业的最新进展和趋势，而且为我们提供了改进技术和解决复杂问题的思路。然而，由于学术论文常常包含密集的技术细节和专业术语，新手可能会觉得门槛较高。

2024-06-13 08:16:42 1731

原创 GPT-4o：全新AI技术的深度解析

人工智能（AI）技术日新月异，最近，OpenAI发布了最新的语言模型——GPT-4o。作为GPT-4的进化版本，GPT-4o在多个方面展现了其独特的优势和显著的提升。本篇文章将从多个角度对GPT-4o进行评价，包括版本间的对比分析、GPT-4o的技术能力、应用场景以及个人整体感受，旨在帮助读者全面了解这一新兴技术。

2024-06-11 06:21:21 968

原创搞定99%的R包的安装报错

此处解释一下这段代码的意思，就是如果没有pacman包，就自动安装，之后调用专门用来安装包的pacman包，利用p_load函数直接调用包，如果需要的包曾经没有安装过，这个函数会自动安装后加载。每次开始学习R语言，最困难的一步就是下载R语言和Rstudio，第二步就是迷失在安装运行所需包的报错之中，本次就提供最便捷的安装包的方法，以及一些常规方法不能成功安装的包的安装方案，一文搞定99%的困难。首先，所有的教材或网站上，都会告诉你，开始都要运行library(“ggplot2”)这条语句，然后就会被告知。

2024-06-10 14:05:05 1790

原创一、方差分析（45分）冬小麦不同水分条件下的产量试验进行了不同水分处理，为完全随机设计，试进行方差分析（wh.csv）。（1）是否满足方差分析的前提假设？（提示:正态检验用shapiro.test

（3）分别分析不同因变量（NEE、RECO和GPP）与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET的多重非线性检验，在此基础上，采用逐步回归和AIC法进行多元线性回归分析，并解释结果（15分）（4）NEE与Ta、VPD、Pa、Ws、Rn、CO2、SWC、ET进行通径分析，并列出通径分析表格或者画出通径分析图（R语言中的agricolae包）（15分）方差分析结果表明，在不同水分处理下的产量存在显著差异（ANOVA, F = 55, p < 0.001），这意味着水分条件对产量有着显著影响。

2024-06-09 17:32:06 307

原创南京农业大学试题纸附表（rape.csv）是25个油菜材料，测得每个材料的千粒重、亚油酸等的含量. (1) 对物质含量的八个指标作主成分分析，画出碎石图和主成分得分图； (2) 选

(1)请用n1

2024-06-09 17:27:38 464

原创 2023 – 2024学年第1学期2021级 R语言考试试题（机考）

吸收量的标准差也显示了各组数据的离散程度。四、将father.son.txt文件导入为数据集father.son，该数据集收集了1078组父亲和儿子的身高信息，使用该数据集绘制儿子身高sheight（y）对父亲身高feight（x）的散点图，使用lm函数完成简单线性回归建立儿子身高作为父亲身高的函数的模型，并将使用abline函数将拟合线绘制到散点图上，注意在图形上生成合适的坐标轴标签和标题。（1）将给定的文本数据文件gdp.txt导入到R中（文件中的分隔符是逗号（,），第一行是变量的名称）。

2024-06-09 17:23:16 610

原创试通过以下方法计算万科A（000002.SZ）在下一交易日，有95%的概率，收盘价对数收益率不低于多少。假设给定数据窗口为2018.01.01-2019.01.01。

( 40分 )试通过以下方法计算万科A（000002.SZ）在下一交易日，有95%的概率，收盘价对数收益率不低于多少。假设给定数据窗口为2018.01.01-2019.01.01。‏。

2024-06-09 17:16:01 311

原创 ‏假想某只债券在上海证券交易所交易，其面值为100元，票面利率为4%，每半年支付一次利息，2025年4月11日到期。，并假设在该期间债券的收益率维持在3%的水平不变。

( 100分 )‏假想某只债券在上海证券交易所交易，其面值为100元，票面利率为4%，每半年支付一次利息，2025年4月11日到期。，并假设在该期间债券的收益率维持在3%的水平不变。‏(1)编写函数计算该债券于2019年11月13日至2022年11月13日期间每天的净价、全价和应计利息的变化，并以数据框的形式给出。‏(2)并用ggplot2画出债券价、全价和应计利息的变化。加载必要的库：定义计算债券净价、全价和应计利息的函数：参数定义：生成日期序列：计算价格：绘图：显示数据框：运行上述代码后，您将

2024-06-09 16:59:30 390

原创基于R语言的微博金融数据分析

例如，2023年3月1日的开盘价是21.34美元，最高价是21.48美元，最低价是18.60美元，收盘价是19.12美元，成交量是2625400股，调整后的收盘价是17.97469美元。可以看到，到了2024年2月29日，微博的开盘价是9.17美元，最高价是9.41美元，最低价是9.06美元，收盘价是9.12美元，成交量是10622900股，调整后的收盘价是9.12美元。结果表明，所有的字段（开盘价、最高价、最低价、收盘价、成交量和调整后的收盘价）中都没有缺失值，这意味着我们获取的数据是完整的，没有遗漏。

2024-06-09 16:52:12 427

原创估计资产β系数（R 代码实现）

在股票市场中，资产的β系数（Beta Coefficient）是一个非常重要的量化指标，用于衡量一个资产或投资组合相对于整个市场的波动性。资产的β系数表示资产回报的敏感性，相对于市场回报的变动。

2024-06-09 16:45:41 261

原创估计资产β系数（R 代码实现）

2024-06-09 14:20:27 279

原创 Merton模型的R语言实现

Merton模型是一种结合了期权定价理论和信用风险评估的模型，由Robert C. Merton在1974年提出。它是用来评估公司违约概率的一种方法，将公司债务视作一种欧式看跌期权。在这个模型中，如果公司的资产价值在到期时低于债务水平，公司将违约。

2024-06-09 14:18:42 615

原创历史分布VaR的R语言实现

历史分布VaR的实现依赖于直接使用历史数据来模拟未来可能的市场条件，从而评估潜在的风险水平。这种方法不需要对收益率分布进行任何假设，因此非常适用于金融数据，尤其是在市场条件复杂或数据显示出显著的非正态分布特征时。

2024-06-09 14:16:56 300

原创厚尾分布VaR的R语言实现

自由度：t分布的自由度越小，分布的尾部越厚。位置（均值）和尺度（标准差）参数：可以根据样本数据估计。

2024-06-09 14:15:20 311

原创正态分布VaR的R语言实现

正态分布下的VaR（Value at Risk）计算是建立在资产收益率服从正态分布的假设基础上的。在这种方法中，你将需要收益率的均值和标准差来确定VaR。这种方法的数学公式和步骤相对简单，适用于那些收益率分布近似正态的场合。接着，我们计算这些收益率的均值和标准差，并结合置信水平来确定正态分布的分位数，最终计算出VaR。VaR的计算基于正态分布的性质。函数获取苹果公司（AAPL）一年的股价数据。在这段代码中，我们首先使用。

2024-06-09 14:13:26 258

原创历史模拟法计算VaR

在这种方法中，你首先需要计算出每个交易日的收益率，然后将这些收益率排序。置信水平通常选择95%或99%，这意味着你需要找到所有排序收益率中相应的5%或1%位置的值，这个值就是你的VaR。此代码示例将展示如何使用历史数据来确定在95%的置信水平下的VaR，即有95%的把握认为实际损失不会超过这个计算出的VaR值。历史模拟法的核心在于使用历史收益率数据来预测未来潜在的损失。, 你需要找到所有排序收益率中的第5百分位点。表示在时间 (t) 的收益率，

2024-06-09 14:10:57 1188

原创分层抽样分析：使用R语言计算方差、置信区间和设计效应

方差是度量统计数据分散性的一个指标。在抽样中，方差用于衡量样本估计的可靠性；方差越小，估计越可靠。

2024-05-27 08:26:04 941

原创分层抽样R语言

分层抽样是一种概率抽样技术，用于提高估计的精度并确保来自总体的不同子群体都得到代表。

2024-05-27 08:21:59 468

原创 rstanarm中的stan_glmer

stan_glmer函数是rstanarm包提供的，用于拟合贝叶斯广义线性混合效应模型（GLMM）。这类模型非常适用于处理具有层次结构或分组结构的数据，例如，数据中的观察值可能是分层的（如学生嵌套在学校中）、重复测量的（如同一对象在不同时间点的测量）或有其他类型的非独立结构。stan_glmer。

2024-03-29 08:35:39 375

原创生存分析R代码大全

因为无法在短时间内评价慢性病患者的预后，所以通常情况下不会简单地采用治愈率、病死率等指标，而是对患者进行随访，分析一定的时间之后患者生存或死亡的情况，这种将事件的结果和出现这一结果所经历的时间结合起来分析的方法，称为生存分析 (Survival Analysis)。下面，对生存分析中常用到的代码进行了汇总，参考的文章已经附上链接，可以直接回溯到原文。如何进行生存数据的收集和整理，有不少人存在疑惑，下面这张图给出了非常清晰明了的说明。#四、基线特征描述统计。#七、cox回归模型。#八、连续变量截断值。

2024-03-27 08:29:00 612

原创解决R语言ggplot2包输出带中文字体的矢量图时的乱码问题

这种情况下的字体样式未做更改，因此原图中的字体显示风格不会变，但由于文字被转为图形了，无法再通过pdf编辑工具（例如AI、福昕阅读器等）进行文字编辑。不过由于字体样式更改了，原图中的字体显示风格也会变，但好在文字可以被pdf编辑工具识别（），后续在这些工具中统一调整即可。众所周知，使用R语言ggplot2包绘图时，如果图中存在中文字体的情况，输出pdf矢量图时会乱码，如下所示的这样。另一种方法是将图中中文字体轮廓化为图形后再输出为矢量图，这样就不受字体库的影响了。

2024-03-25 08:37:53 1016

原创 R语言画图 | 分组折线图

简单整理 ggplot2 绘制分组折线图的方法，方便以后使用。

2024-03-01 08:25:17 669

原创考试冬小麦不同水分条件下的产量试验进行了不同水分处理，为完全随机设计，试进行方差分析（wh.csv）。（1）是否满足方差分析的前提假设？（提示:正态检验用shapiro.test,方差齐性检验

2024-02-26 07:35:52 168

原创 1. 請根據 bwght2.dta 資料檔,找出一用以解釋嬰兒出生時體重的樣本回歸模型：

bwght =β0+β1 npvis +β2 npviss q+β3 cigs +β4 male +β5 cigs ∗ male +u\text { bwght }=\beta_{0}+\beta_{1} \text { npvis }+\beta_{2} \text { npviss } q+\beta_{3} \text { cigs }+\beta_{4} \text { male }+\beta_{5} \text { cigs } * \text { male }+u bwght =β0+β

2024-02-19 19:21:31 688

Flask集成的ERP系统Demo 该项目是一个基于Flask的Web版本ERP系统Demo，旨在实现企业信息管理的基础功能

### 项目名称：Flask集成的ERP系统Demo ### 项目简介：该项目是一个基于Flask的Web版本ERP系统Demo，旨在实现企业信息管理的基础功能。系统主要功能包括表单填写、数据上传、数据查询和美化的数据库界面（增删改查功能）。该系统可以帮助企业有效地管理和查询各种信息，提高工作效率。 ### 主要功能： 1. **数据表导入导出：** - 支持上传企业调查表文件（如Excel文件），并将数据导入数据库。 - 支持导出当前数据或全部数据，便于数据备份和迁移。 2. **层级目录筛选公司信息：** - 通过层级目录筛选公司全部信息，包括文字和图片。 - 便于用户快速查找和管理企业信息。 3. **图片导入：** - 支持企业图片的导入和管理，增强信息展示的直观性。 4. **表单输入：** - 提供详细的表单输入功能，用户可以输入和更新企业信息。 ### 板块信息要求：系统中的企业信息管理板块需要包含以下字段： - 单位名称 - 统一社会信用代码 - 运行状态（运行、停产、关闭） - 生产地址 - 联系人 - 联系方式

2024-07-20

matlab 可见光与红外光图像融合

图像融合是计算机视觉领域的一个重要研究方向，旨在将来自不同传感器或获取途径的图像信息进行结合，以生成更具信息含量的图像。可见光图像提供了高分辨率和丰富的纹理细节，而红外图像则可以在不同的光照条件下检测到物体的热辐射信息。将这两种图像融合，能够得到既包含热辐射信息又具有丰富细节的图像，广泛应用于军事监控、医疗影像和遥感等领域。本项目旨在使用小波变换和拉普拉斯金字塔两种多尺度分解方法，实现可见光与红外光图像的融合，并对不同小波基的融合效果进行比较分析。具体目标包括： 1. 实现小波变换和拉普拉斯金字塔的多尺度分解和图像融合。 2. 比较不同小波基（如Daubechies、Haar、Symlets等）对融合效果的影响。 3. 分析两种方法在图像分解和重构过程中的优势和不足。 4. 探索红外与可见光图像的融合，优化算法，为图像处理和分析提供更有效的方法和理论支持。实验与结果分析使用不同的小波基（如Daubechies、Haar、Symlets等）进行实验，比较它们在图像融合中的效果。对比小波变换和拉普拉斯金字塔方法在融合效果、计算效率和图像质量等方面的差异。采用峰值信噪比（PSNR

2024-07-20

该项目是一个基于Flask框架的用户管理模板，在Flask-Login的基础上添加了用户管理功能，旨在提供一个简洁且功能全面的用

## 功能特性： ### 1. 初始化： - **配置文件**：预定义了项目的配置文件，方便项目快速启动。 - **脚本启动**：提供了脚本启动功能，简化项目运行步骤。 - **数据模型**：预先定义了用户管理所需的数据模型。 - **蓝图**：采用Flask蓝图模式组织项目，便于扩展和维护。 ### 2. 登录注册功能： - **用户登录**：实现了用户登录功能，支持密码校验。 - **用户注册**：实现了用户注册功能，支持新用户的创建。 - **用户数据模型**：定义了用户数据模型，包含必要的用户信息字段。 - **密码校验**：集成了密码加密和校验功能，确保用户密码安全。 ### 3. 用户管理功能： - **用户信息管理**：提供用户信息的查看和修改功能。 - **用户头像管理**：支持用户头像的上传和更换。 - **用户密码管理**：提供用户密码的修改功能。 ### 4. 主面板功能： - **主页**：提供简洁美观的主页界面。 - **导航栏**：提供便捷的导航栏，便于用户操作。 - **资讯**：提供最新的新闻资讯展示功能。

2024-07-20

该项目为SWPU数据库原理及应用大作业，名为《西柚の外卖屋》，是一个基于Flask框架和MySQL数据库开发的在线外卖订餐系统

目模块及功能介绍 1. 登录模块 ● 选择身份登录：用户可以选择管理员、商家用户或普通用户身份登录。 ● 验证登录：输入的用户名和密码与数据库中的数据进行对比验证。 2. 注册模块 ● 选择身份注册：用户可以选择商家用户或普通用户身份注册。 ● 存储注册信息：将注册信息（用户名、密码、电话、地址）存入数据库。 3. 商家用户模块 ● 维护个人信息：商家可以维护自己的店名、地址、联系电话和商家图片。 ● 修改登录密码：商家可以修改个人登录密码。 ● 维护菜单列表：包括添加、删除、修改菜品信息（菜品名称、描述、营养成分、销量、价格、图片、是否为招牌菜）。 ● 排序查看菜品：商家可以按销量或价格排序查看菜品列表。 ● 查看顾客订单：商家可以查看顾客订单及完成情况，并按时间或价格排序查看。 ● 查看顾客评论：商家可以查看顾客对菜品的评论，包括订单号、顾客用户名、餐厅名、是否完成、花费、评分、评语、交易时间。 4. 买家用户模块 ● 维护个人信息：买家用户可以维护自己的用户名、地址和联系电话。 ● 修改登录密码：买家用户可以修改个人登录密码。 ● 查看商家信息：用户可以查看商家列表（店名、地址、

2024-07-20

C++ Qt 学生宿舍管理系统

开发一个学生宿舍管理系统，涉及到数据库和图形用户界面。以下是一个详细的方案，分为数据库设计、Qt界面设计和功能实现三个部分。（一）基于学生结构体数组的宿舍管理系统（30 分）定义学生结构体类型的数组，静态初始化学生信息（不包括入住信息）。宿舍信息可使用结构体数组或链表单独定义。 1、管理员为超级用户，管理员登录后可利用全局函数完成学生数据的管理和查询，例如查询全部学生入住宿舍信息等； 2、学生登录后，通过仅可对自己完成入住宿舍和查询功能，无权访问他人信息。注意：必须熟悉结构体和结构体数组的访问；必须实现不同角色的权限控制；严禁编写只有一个主函数的程序，必须根据功能采用多函数完成

2024-07-20

上证50ETF基金数据分析及预测

中国股市的发展历程坎坷，从最初的茫然到现在的逐步成熟，股市已经成为中国经济发展的重要标志之一。然而，当前中国股市仍存在投机行为过度和定价机制不完善等问题。为更好地理解和预测股市走势，本项目聚焦于上证50ETF基金的历史数据分析和未来走势预测。 #### 项目目标 1. 获取并处理上证50ETF基金的历史数据。 2. 通过分析股票指标，探讨其与基金价格变化的关系。 3. 应用多种时间序列预测模型（如LSTM, GRU, 双向LSTM）对基金未来走势进行预测。 4. 对比不同模型的预测效果，选择最佳模型。 - 使用Tushare接口获取上证50ETF（代码：510050.SH）过去20年的交易数据。 - 数据包含交易日期、开盘价、收盘价、最高价、最低价、成交量等11个字段，经过预处理后存储为CSV文件格式。 #### 项目文件 - **getdata.ipynb**：数据获取代码。 - **train_regress.ipynb**：数据分析及预测代码。 - **20_year_FD.csv**：处理后的数据文件。 - **getDate.pptx**：数据获取及处理过程的解

2024-07-20

C++ 命令行超市收银系统

这是一个简单的命令行超市收银系统，这个项目其实是学校某门课程的期末作业，使用的是 `C++` 语言，但采用的仍然是面向过程的编程思想。 - 此项目已经通过课程的期末答辩，并获得了 **“优”** 的成绩 - 程序的图标来自 [iconfont-阿里巴巴矢量图标库](https://www.iconfont.cn/) - **注意：只有程序被正常退出时（即输入退出指令“0”时），才会将数据保存到文件！ ## 截图 ![主菜单]() ![超市管理菜单]() ![库存管理菜单]() ![货物清单]() ![账单处理菜单]()

2024-07-20

图形用户界面（GUI）实现人脸识别功能 OpenCV

#### 1. **目标** 该项目的目标是通过图形用户界面（GUI）实现人脸识别功能。用户能够通过界面选择一张人脸图像，程序会对图像进行处理并返回识别结果。如果识别成功，程序会展示处理后的图像；如果识别失败，会提示用户。 #### 2. **技术栈** - **Python**：作为主要编程语言。 - **wxPython**：用于创建图形用户界面。 - **OpenCV**：用于图像处理和人脸识别（需要注意版本兼容性问题）。 - **dlib**（可选）：作为替代人脸检测工具，如果 OpenCV 版本不支持 `cv2.face` 模块。 #### 3. **主要功能** - **图像选择**： - 用户通过图形界面选择一张图像文件。 - 选择后的图像会在 GUI 中显示出来。 - **人脸识别**： - 程序将调用 `forecast` 方法进行人脸识别。 - 根据识别结果，程序将处理后的图像展示在 GUI 中，或者提示用户识别失败。

2024-07-20

本实验旨在实现一个基于协同过滤的电影推荐系统，以此来处理和分析大规模数据集

本实验旨在实现一个基于协同过滤的电影推荐系统，以此来处理和分析大规模数据集。通过实验，学生将掌握使用Hadoop和MapReduce进行大数据集的存储、管理和处理的技能，并了解如何应用数据挖掘技术进行电影推荐。实验采用Netflix数据集，该数据集包含了1999年12月31日至2005年12月31日期间，由网站用户提供的超过一亿条电影评价。使用Hadoop HDFS（分布式文件系统）存储原始数据和预处理后的数据。通过在HDFS上设计合理的文件结构，优化读写效率。例如，将原始数据文件上传到HDFS并组织成适合MapReduce任务处理的结构。具体实现包括使用MapReduce编写的RatingMapper、RatingReducer和RatingDriver类。RatingMapper类负责读取和清洗原始评分数据，RatingReducer类对每部电影的评分进行聚合和统计，RatingDriver类负责配置和启动MapReduce任务。通过评估指标如准确度、覆盖率和均方根误差（RMSE）对系统进行评估。使用交叉验证方法来评估模型的泛化能力，并通过实验结果验证推荐系统的有效性。

2024-07-21

项目描述：心脏病分析与预测

心脏病是全球范围内导致死亡和疾病的重要原因。尽早预测和预防心脏病发作对于改善患者的健康结果至关重要。本项目的目标是通过数据分析和机器学习技术，开发一种有效的方法来预测心脏病发作的风险。该项目基于一个包含303个样本和13个特征的数据集，每个样本代表一名患者的医疗信息。 #### 数据集概述数据集中包含以下特征： - 年龄（age）：患者的年龄。 - 性别（sex）：患者的性别。 - 胸痛类型（cp）：胸痛的类型，包括典型心绞痛、非典型心绞痛、无心绞痛和无症状。 - 静息血压（trtbps）：以毫米汞柱（mm Hg）表示的静息血压。 - 胆固醇（chol）：通过BMI传感器获取的胆固醇值，以mg/dl表示。 - 空腹血糖（fbs）：空腹血糖是否大于120 mg/dl。 - 静息心电图结果（restecg）：静息心电图结果，包括正常、ST-T波异常和左心室肥大。 - 最大心率（thalachh）：达到的最大心率。 - 旧峰值（oldpeak）：运动引起的ST段下移值。 - 斜率（slp）：运动峰值ST段的斜率。 - 主要血

2024-07-21

Matlab车牌监测与识别系统

项目名称：车牌监测与识别系统 **1. 项目目的与意义** - 本项目旨在综合运用数字图像处理技术设计并实现一个车牌检测与识别系统，以解决实际复杂工程问题。 - 该系统的开发有助于培养学生在数字图像处理领域的综合运用能力，以及增强其针对实际问题的解决技能。 **2. 项目内容** - 系统主要包括车牌图像采集、彩色图像灰度化、图像滤波去噪和增强、边缘检测与数学形态学处理、车牌区域定位、车牌区域分割、字符分割、字符识别等功能处理模块。 **3. 实验方法** - 使用相机进行车牌图像的采集，并通过Matlab进行编程实现车牌的检测与识别。 **4. 技术实现** - **车牌图像采集**：利用模拟制作的车牌图像，通过工业相机进行图像采集。 - **车牌区域定位与分割**：采用图像预处理技术将彩色图像转化为灰度图像，通过滤波、去噪、边缘检测和数学形态学处理来突出车牌区域，再利用投影法确定车牌的边界，从而实现车牌的精确裁剪。 - **车牌识别**：对裁剪得到的车牌区域进行进一步的图像处理，分割出独立的字符图像，然后通过模板匹配技术对每个字符进

2024-07-21

基于启发式搜索的 AI 五子棋 python

**项目名称：** 基于启发式搜索的 AI 五子棋 **项目背景：** 本项目是《人工智能基础》课程设计的一部分，旨在通过实际编程实践深入理解和掌握AI搜索算法的应用。 **实验目的：** 1. **知识掌握：** 熟悉并掌握博弈树的启发式搜索过程、α-β剪枝算法和评价函数。 2. **程序实现：** 掌握状态空间搜索、启发式搜索、max-min 方法和α-β剪枝，并开发五子棋人机对弈游戏。 **实验摘要：** - 通过使用α-β剪枝算法解决五子棋人机对弈问题，包括设计适合五子棋的评估函数。 - 游戏界面包括15x15的棋盘，电脑执白棋，人执黑棋，支持重新开始和悔棋功能。 **实验内容与设计：** - **用户界面：** 通过图形用户界面显示棋盘状态和操作提示，包括开始和结束游戏的界面。 - **搜索与AI逻辑：** 利用带有α-β剪枝的极小极大搜索算法，AI根据棋盘状态进行深度受限的启发式搜索，选择最优落子。 - **游戏控制：** 通过监测键盘和鼠标操作来控制游戏进程，如开始、悔棋和重新开始等。 - **评估函数：** 设计棋型评估函数来决定AI的落子，包

2024-07-21

项目围绕贵州茅台股票的历史开盘价数据展开，使用了长短期记忆网络（LSTM）模型来预测股票价格

这个项目是由南京师范大学计算机与电子信息学院/人工智能学院的学生进行的大作业，主题是使用机器学习技术进行股票价格预测。项目围绕贵州茅台股票的历史开盘价数据展开，使用了长短期记忆网络（LSTM）模型来预测股票价格。具体的工作分为以下几个主要部分： 1. **数据预处理**：使用Pandas加载历史股票数据，选择开盘价作为目标特征，并将数据分为训练集和测试集。使用MinMaxScaler对数据进行归一化处理，以便于模型训练和预测。 2. **模型构建**：构建一个包含两层LSTM和Dropout层的深度学习模型，最终通过一个全连接层输出预测值。使用Adam优化器和均方误差作为损失函数。 3. **模型训练与优化**：模型在50个epochs内进行训练，使用ModelCheckpoint来保存在验证集上表现最好的模型权重。 4. **模型评估与预测结果分析**：使用训练好的模型对测试集数据进行预测，计算均方误差、均方根误差和平均绝对误差来评估模型的预测准确性，并通过图表展示预测结果与实际结果的对比。 5. **结果展示与分析**：通过可视化手段展示了模型的预测效果，并分析了模型的表现。

2024-07-21

- 使用Matlab工具实现图像空间域和频率域的增强实验报告

**实验名称：图像增强** **1. 实验目的** - 掌握图像空间域增强和频率域增强的方法。 - 使用Matlab工具实现图像空间域和频率域的增强。 **2. 实验内容** - 了解并应用图像增强的原理。 - 设计并实现Matlab程序进行图像空间域和频率域的增强。 - 观察并分析图像增强的效果。 **3. 实验方法** - 利用MV-EM系列千兆网工业相机进行图像采集。 - 使用Matlab进行图像的空间域和频率域增强。 **4. 实验步骤** - **图像采集**：使用工业相机获取原始图像。 - **空间域增强**： - 实施灰度变换增强，改变灰度值之间的动态范围，增强图像对比度。 - 使用平滑滤波器去除图像中的高斯噪声，应用不同大小的模板进行均值滤波。 - **频率域增强**： - 对图像添加高斯噪声后，使用巴特沃斯滤波器进行滤波，观察滤波效果。 **5. 实验结果** - **空间域增强结果**： - 成功通过灰度变换提升了图像的对比度。 - 平滑滤波

2024-07-21

计算机网络最终实验-聊天室 python

计算机网络最终实验-聊天室功能要求使用用户名和密码验证用户登陆允许用户注册, 返回一个10位数字的账号用户之间可以用文字聊天离线传输文件双方在线时用NAT传输文件语音聊天实现策略服务器端使用数据库维护用户信息服务器端暂存用户发送的消息, 用户上线时通知服务器, 并接受消息. 服务器传达消息后删除暂存的消息在传输文件之前, 先通告文件的大小, 文件名和哈希值, 服务端检查文件名是否存在, 哈希值是否相等, 如果存在且哈希值不相等则启动断点续传, 从服务端接受到的文件大小处开始接受文件当收发双方都在线时, 则启动NAT协议, 服务器端告知双方IP地址和端口, 双方直接连接语音聊天仅当双方都在线时有效, 双方维护两条UDP连接, 分别发送自己的语音流和接收对方的语音流实现细节用户登陆客户端在本地查询要求输入用户名和密码客户端向服务器端申请连接, 然后发送登录报文 { "type": "login", "username": "<username>", "password": "<password>" } 服务端收到报

2024-07-21

python大学生小组作业：识别图片中的数学公式并计算其中的结果

Pix2Answer 是一个创新的数学辅助工具，旨在帮助学生和教育工作者快速识别并计算图片中的数学公式。通过结合先进的图像处理技术和数学解析算法，该工具能够将照片中的数学表达式转化为可计算的LaTeX格式，进而给出计算结果。项目由 JingWangBo、TorryQ、YorkyifanWei、ZhouGenFa 和 ZhangXian 联合开发，旨在简化数学问题的解答过程，提升学习效率。功能亮点公式识别：利用 pix2tex 库的 OCR 技术，精准识别图片中的数学公式。公式转换与计算：通过 latex2sympy2 和 sympy，将识别的公式转换为可计算的数学表达式，并执行计算。结果可视化：使用 matplotlib 生成计算结果的图像表示，直观展示。用户界面：构建了基于 tkinter 的图形界面，便于用户上传图片、查看识别的公式及计算结果。技术栈图像处理：Pillow (PIL) 用于图像的读取与基本处理。公式识别：pix2tex 的 LatexOCR 类实现图像到LaTeX的转换。数学计算：latex2sympy2 与 sympy 处理数学公式解

2024-07-21

MATLAB 实验名称：语音信号降噪及特征提取可视化

**实验名称：语音信号降噪及特征提取可视化** **1. 实验目的** - 熟悉仿真工具软件MATLAB的使用。 - 掌握语音信号的预处理、降噪及常用特征提取方法。 - 熟悉GUI编程方法，实现语音信号处理结果的可视化。 **2. 实验仪器及软件** - PC机 - MATLAB仿真软件 **3. 实验设计内容及要求** - **设计方案**：基于GUI的编程实现语音信号的常用特征提取功能，并完成相应的实验结果分析。 - **基本设计内容及要求**： - 设计并实现一个基于GUI的应用，用于语音信号的采集、预处理、降噪、特征提取，并可视化展示这些处理步骤的结果。 **4. 实验步骤** - **语音采集**： - 调用或编写采集程序录制自己说的一段语音，至少包含姓名。 - **语音信号前处理**： - **预加重**：实现信号的高频补偿，记录并分析预加重前后的时域和频域变化。 - **降噪滤波**：通过适当的滤波器消除噪声，记录并分析前后信号的频谱变化。 - **端点检测**

2024-07-21

C语言贪吃蛇（控制台版）

C语言贪吃蛇（控制台版）这是一个简单的控制台版贪吃蛇游戏，使用C语言编写。项目架构 main.c：主程序 game.h: 游戏主逻辑 menu.h: 菜单显示 snake.h：贪吃蛇逻辑实现 structs.h: 数据结构定义 utils.h: 工具函数定义 settings.h: 设置项 stats.h: 数据统计 macros.h: 基本宏定义 TODO 添加多平台支持添加游戏菜单可变大小地图随机地形贪吃蛇速度控制步数统计等宽字符 Windows性能优化更友好的设置菜单添加注释添加更多地形添加手动退出选项修复闪烁的o

2024-07-21

Matlab图像压缩利用Matlab进行图像的DCT压缩编码，进行不同压缩比的实验操作

**实验名称：图像压缩** **1. 实验目的** - 掌握图像压缩编码的方法。 - 使用Matlab工具进行图像的DCT压缩编码实现。 **2. 实验内容** - 学习图像压缩编码的基本原理，特别是DCT（离散余弦变换）压缩方法。 - 设计并实现使用Matlab进行图像的DCT压缩编码，并观察不同压缩比下的图像压缩效果。 **3. 实验方法** - 使用MV-EM系列千兆网工业相机进行图像采集。 - 利用Matlab进行图像的DCT压缩编码，进行不同压缩比的实验操作。 **4. 实验步骤** - **图像采集**：通过工业相机获取高质量的原始图像。 - **图像压缩实施**： 1. 在Matlab环境下编写DCT压缩编码的脚本。 2. 对原始图像应用DCT压缩，实验不同的压缩比（例如0.5和0.125），观察并记录压缩后的图像质量和文件大小。 3. 计算并记录各压缩比下的均方根误差，以评估压缩质量。

2024-07-21

基于 Spark 的出租房屋大数据分析

大数据技术与应用课程设计基于 Spark的出租房屋大数据分析本项目通过 EXCEL 对出租房屋数据集进行预处理，并使用 Spark SQL 进行了租金前十的市辖区、各市辖区出租房屋的最大面积、最小面积、平均面积等数据分析；使用 Flask+Echarts 对数据进行大屏可视化；使用 K-Means 聚类对出租房屋进行聚类分析，根据聚类结果可知，该数据集可分为三类；使用 Lasson 回归模型进行预测租金，该模型优化后 RMSE 值为 1074；具体查看 https://blog.csdn.net/Mrrunsen/article/details/140168308

2024-07-05

基于数据挖掘的森林火灾预测分析有代码和报告

本次研究整体效果很好，实现了最初设定的目标，找到主要因素对森林火灾的影响。本实验通过聚类分析得到：温度高和湿度低的时候很容易发生火灾，温度低湿度高的时候也容易发生火灾只不过没有温度高湿度低的时候集中，同时火灾在任何情况下都可能发生，需要时刻注意；除此之外，葡萄牙蒙特西尼奥自然公园发生森林火灾的时间点主要集中在八九月份。实验的目的虽然达到了，但是本实验还具有一定的局限性：特征选择说服力不够、聚类分析不够精准和泛化能力弱。特征选择说服力不够。参考相关文献，选择温度、湿度和月份三个特征，没有针对具体的数据来进行选择特征，因此选择的特征不一定很符合此次数据的特征。特征选择要选择那些对因变量解释程度强的自变量，根据参考文献知温度和湿度对森林火灾的发生的影响很大，因此我选择这两个特征，同时温度和湿度与月份相关度很高，因此又选择了月份这个特征。聚类分析不够精准。聚类分析要求不断的迭代，直到前后两次实验结构差距不大，本次实验关于K-means和DBSCAN的聚类分析缺乏迭代，最终的分类结果的精准度会有一点问题。虽然聚类结果不够精准，但也可以大概的看出每一类的特点，不影响大方面规律的寻找，但是虽然不

2024-08-10

历届奥运会奖牌数据（1896年-2022年）

奥运会，全称奥林匹克运动会（Olympic Games），是国际奥林匹克委员会主办的世界规模最大的综合性体育赛事，每四年一届，会期不超过16天。这项历史悠久的赛事起源于古希腊，现代奥运会则始于1896年的希腊雅典。奥运会分为夏季奥运会和冬季奥运会，旨在通过体育竞技促进世界各国之间的友谊与文化交流，体现“更快、更高、更强、更团结”的奥林匹克精神。奥运会不仅是全球顶尖运动员展示才华的舞台，也是展现举办城市文化和促进国际交流的重要平台。奥运会奖牌是授予在奥运会比赛中获得前三名的运动员的荣誉标志，象征着运动员在体育竞技中的卓越成就。不仅是对运动员个人努力的认可，也是国家和地区在国际体坛地位的象征。本次分享的数据为1896年-2022年间奥运会奖牌数据，包括届次、国家地区、名次、金牌、银牌、铜牌等数据一、数据介绍数据名称：历届奥运会奖牌数据数据范围：世界各国数据年份：1896年-2022年数据说明：包括届次、国家、名次等数据二、主要指标奥运会届次名次国家金牌银牌铜牌总数年份

2024-08-07

机器故障数据集故障预测分析

本数据集包含多个关键性能指标，这些指标反映了机器在运行过程中的多种状态和环境因素。利用本数据集分析机器在不同操作条件下的性能数据，可以为机器的维护、优化和故障预测提供数据支持。数据说明字段说明 footfall 经过机器的人数或物体数量 tempMode 机器的温度模式或设置 AQ 机器附近的空气质量指数 USS 超声波传感器数据，表示接近度测量 CS 当前传感器读数，表示机器的电流使用情况 VOC 检测到的挥发性有机化合物水平 RP 机器部件的旋转位置或每分钟转数 IP 机器的输入压力 Temperature 机器的运行温度 fail 机器故障的二元指示器（1表示故障，0表示无故障）数据来源 https://www.kaggle.com/datasets/umerrtx/machine-failure-prediction-using-sensor-data 问题描述故障预测分析：哪些因素最可能导致机器故障？环境影响评估：环境因素如何影响机器性能？使用模式识别：识别不同的使用模式，分析模式与故障的关系。

2024-08-07

北京市二手房信息，用于数据分析、可视化

数据文档背景描述某平台北京市二手房信息，用于数据分析、可视化数据说明字段：市区、小区、户型、朝向、楼层、装修情况、电梯、面积(㎡)、价格(万元)、年份字段数据类型市区 string 小区 string 户型 string 朝向 string 楼层 int 装修情况 string 电梯 string 面积(㎡) float 价格(万元) float 年份 int 数据来源数据来自：某平台爬取问题描述适用于分析： 1、北京二手房地理分布 2、二手房价格分析 3、二手房面积分布 4、二手房价格预测 5、相关性分析

2024-08-07

各城市-能源消费数据（2000-2022年）

数据文档各城市的能源消费数据通常涉及多种能源类型，包括煤炭、石油、天然气、电力等，这些数据反映了城市经济活动、居民生活以及工业生产的能源需求状况。这类数据对于分析能源供需平衡、评估节能减排政策效果及规划未来能源发展有一定价值。一、数据介绍数据名称：各城市-能源消费数据数据年份：2000-2022年样本数量：7751条二、指标说明共计6个指标：序号、code、city、province、year、能源消费总量(百吨标准煤)

2024-08-07

当当网的书籍热销榜的排行榜

书名作者出版日期出版社原价售价折扣比例排序排行榜类型推荐值电子书价格评论数你当像鸟飞往你的山（中文版销量超200万册，比尔・盖茨年度特别推塔拉 2019-11-01 南海出版公司 59 35.4 6.0折 1 2020年 100% 24.99 1701192

2024-08-07

小米su7微博文本数据

时间文本转发评论赞 2023-05-22 16:48:00 1_近日，幸运儿（化名）领取5000w奖金成功上岸，准备买辆小米SU7 Max，感叹要继续努力工作，剩余奖金使用暂时没有安排好，现存银行。 05 09 13 18 26 31-03 07 1507 14 21 23 29 38 41 44 47 53 03 05 19 25 27+06 0906 07 11 21 32+07 1113 15 20 31 35+02 08 0 0 1 小米su7微博文本数据涉及时间文本转发评论赞

2024-08-07

全国热门旅游景点数据，用于数据分析、可视化

数据文档背景描述全国热门旅游景点数据，用于数据分析、可视化数据说明字段：城市、名称、星级、评分、价格、销量、省/市/区、坐标、简介、是否免费、具体地址字段数据类型城市 string 名称 string 星级 string 评分 float 价格 float 销量 int 省/市/区 string 坐标 string 简介 string 是否免费 bool 具体地址 string 数据来源数据来自：某平台爬取问题描述适用于分析： 1、全国景点分布 2、国民出游分析 3、假期出游建议 4、景区价格分析

2024-08-07

2024年软科中国高校排行榜主榜数据

2024年软科中国高校排行榜主榜数据排名中文名英文名标签地址行业分数层次 Logo 1 清华大学 Tsinghua University 双一流/985/211 北京综合 992.6 36.1 https://www.shanghairanking.cn/_uni/logo/27532357.png 2 北京大学 Peking University 双一流/985/211 北京综合 898.6 34.9 https://www.shanghairanking.cn/_uni/logo/86350223.png 3 浙江大学 Zhejiang University 双一流/985/211 浙江综合 793.8 34.9 https://www.shanghairanking.cn/_u

2024-07-28

高效AI五子棋对弈系统：基于启发式搜索与α-β剪枝

本项目开发了一个基于启发式搜索和α-β剪枝算法的AI五子棋对弈系统，旨在提供高效且具挑战性的人机对弈体验。通过精心设计的算法和优化的数据结构，本系统能够迅速准确地处理复杂的棋局，为玩家提供一个既实用又富有教育意义的游戏平台。系统核心采用极小极大搜索策略，并集成α-β剪枝来优化搜索过程，显著提高决策效率和速度。此外，本项目在AI设计上引入了深度受限的启发式搜索方法，能够在保证搜索深度的同时，快速评估并选择最优落子。AI的决策过程不仅基于当前棋局状态，还通过一个复杂的评估函数来预测未来可能的发展，该评估函数考虑了不同棋型的战略价值，如活三、死四等。项目的用户界面通过Pygame库实现，提供直观友好的操作界面。玩家可以通过鼠标进行落子，系统能即时响应并显示AI的反击。界面还包括功能按钮如重新开始、悔棋等，增强了游戏的互动性和可玩性。为了提升用户体验，AI决策过程中的思考时间得到了严格控制，确保游戏节奏。

2024-07-24

python智能信用卡欺诈数据分析，有ppt 基于大规模信用卡交易数据，通过建模过去的交易行为，以识别潜在的欺诈交易

项目的首个阶段集中在数据收集与预处理，我们从合作银行获取了包含数百万条记录的数据集，涵盖各类交易细节。数据预处理包括清洗、缺失值处理和异常值检测，以确保输入数据的质量和一致性。在模型开发阶段，我们采用了两种策略：一种是基于传统的统计方法，如逻辑回归；另一种则是更为复杂的神经网络模型。逻辑回归模型在简单性和解释性方面具有优势，适合快速部署。而神经网络模型则在处理大量数据和复杂模式识别方面表现出更高的准确性。为了处理数据集的不平衡性，我们采用了下采样和过采样技术。下采样减少了正常交易的样本数量，而过采样则增加了欺诈交易的样本，这有助于模型更公平地学习到两种类型的交易特征。评估阶段，我们使用准确率、召回率和F1分数等多种性能指标来衡量不同模型的效果。实验结果显示，神经网络模型在检测欺诈交易方面具有较高的准确性，但计算成本和时间也相对更高。逻辑回归模型虽然在某些性能指标上略低，但其简单性和快速响应能力使其成为一种实用的选择。最终，这两种模型都被集成到我们的信用卡欺诈检测系统中，系统已在多家合作银行成功部署，显著提高了欺诈检测的准确率，并有效减少了由此带来的经济损失。通过此项目，

2024-07-24

综合自然语言处理工具：文本分析与生成系统本项目旨在开发一款综合性的自然语言处理（NLP）工具，

本项目旨在开发一款综合性的自然语言处理（NLP）工具，该工具集成了文本处理、主题建模和文本生成等多种功能，适用于教育、研究和商业应用。该工具基于Python编程语言构建，主要利用NLTK、Gensim和TensorFlow等先进的库，实现了一系列自动化的文本分析技术。用户通过一个图形用户界面（GUI）进行交互，可以轻松输入文本并选择想要执行的NLP任务。该界面简洁友好，支持多种文本处理操作，包括分句、分词、停用词去除、词形还原以及单词频率统计。此外，该工具还提供了基于LDA的主题建模功能，帮助用户从大量文本中抽取主题，以及训练和应用Word2Vec模型来发现词汇间的相似性。文本生成功能是本工具的另一大亮点。利用训练好的模型，用户可以生成与指定LDA主题关键词相关的文本，极大地拓展了其应用场景，如自动内容创作、教育辅助教学和研究数据分析等。这些功能不仅提高了文本处理的效率，也增强了文本分析的深度和广度。

2024-07-24

python CD销售趋势与消费行为洞察：基于CDNow数据的全面分析

本项目基于美国CDNow公司1997年1月至1998年6月的消费数据，旨在通过深入分析消费行为，建立RFM模型，探索消费趋势、复购率和回购率。通过此分析，我们将揭示用户消费的关键特征，并对营销策略提供数据驱动的见解。项目的数据包括用户ID、订单时间、购买产品数量和订单金额。这些数据被用来分析用户购买行为，从而确定不同类型用户的消费模式和商业价值。通过数据处理，包括去除重复值、处理缺失值和时间格式转换，确保了分析的准确性和数据的一致性。在数据分析过程中，我们首先利用描述性统计分析了整体的消费记录。随后，通过构建RFM模型，确定了各用户群体的消费频率、最近消费时间和消费金额，这有助于我们识别高价值用户和潜在风险用户。特别是对1997年初大量涌入的新用户进行了深入分析，探讨了用户流失的原因和特点。

2024-07-24

本项目旨在通过Python编程语言，从链家网爬取上海市二手房数据，并对其进行系统分析，以揭示上海二手房市场的动态和趋势

项目包括数据采集、数据预处理、数据分析和可视化四个部分。首先，使用Python的网络爬虫库（如aiohttp、requests、parsel等）及异步编程技术，从链家网上爬取上海市二手房信息，包括房源所在区域、标题、位置、房屋信息、总价和单价等关键字段。爬取的数据被存储为CSV文件，为后续分析提供基础数据。在数据预处理环节，利用Pandas库对数据进行清洗和转换，去除缺失值和重复值，并对“房屋信息”字段进行拆分，提取出户型、面积、朝向、装修状况、楼层、建筑年份等详细信息。通过这些预处理操作，确保数据的一致性和完整性。数据分析部分，通过Matplotlib和Seaborn库生成各类统计图表，如房屋户型分布图、装修类型数量统计图、房屋结构与价格关系图等，揭示了不同户型和装修类型的市场占比及其价格特征。此外，绘制了上海各区二手房平均单价热力图，展示不同区域房价的显著差异。为了深入理解市场，项目还进行了聚类分析。选取单价、总价和面积作为特征，使用Scikit-learn库中的KMeans算法对二手房数据进行聚类，通过肘部法确定最佳聚类数量，将数据分为低价小户型、中价中户型和高价

2024-07-24

该项目为实践《python数据分析与挖掘实战》中的基本项目以及课程拓展

该项目为实践《python数据分析与挖掘实战》中的基本项目以及课程拓展。包含每个章节的数据集，以及实现的jupyter文件财政收入影响因素分析及预测模型电力窃漏电用户自动识别电子商务网站用户行为分析及服务推荐航空公司客户价值分析环境质量状况评价基于基站定位数据的商圈分析基于构图质的水质评价家用电器用户行为分析与投诉识别汽车销售流预测及自动识别零售系统会员复购率量预测中证证量关系测控

2024-07-23

第八届“泰迪杯”数据挖掘挑战赛C题：智慧政务中的文本挖掘应用

本资源是第八届“泰迪杯”数据挖掘挑战赛的C题“智慧政务”中的文本挖掘应用的相关资料与要求。该挑战赛旨在利用自然语言处理和文本挖掘技术对智慧政务系统中的群众留言进行分类和热点问题挖掘，以提升政府管理水平和施政效率。问题背景：随着微信、微博等网络问政平台逐渐成为政府了解民意的重要渠道，各类社情民意相关的文本数据量迅速增长，传统依靠人工处理的方式已无法满足需求。建立基于自然语言处理技术的智慧政务系统成为治理创新发展的新趋势，对提升政府的管理水平和施政效率具有重要作用。解决问题：群众留言分类：根据附件提供的内容分类三级标签体系，对群众留言进行一级标签分类，以便将留言分派至相应的职能部门处理。目前大部分电子政务系统依靠人工处理，存在工作量大、效率低、差错率高的问题。热点问题挖掘：定义合理的热度评价指标，将某一时段内反映特定地点或人群问题的留言进行归类，给出排名前5的热点问题和对应的留言信息。答复意见的评价：对相关部门的答复意见从相关性、完整性、可解释性等角度进行评价，并提出一套评价方案。数据说明：附件1提供内容分类三级标签体系，包括城乡建设、安全生产等多个类别。附件2至附

2024-07-23

本文利用随机森林模型对房价数据进行预处理，基于 XGBoost对房价进行预测；通过对比实验，发现优化后的 XGBoost模型在

1.本文首先对数据集进行了特征工程，根据相关性对部分特征进行了剔除。其他的特征工程还包括分类变量的编码方式的探讨以及对连续变量的标准化。 2.随后对数据集做进一步处理，连续变量的缺失值以平均值填充，并进行标准化；分类变量的缺失值以出现最多的类别等方式进行填充，使用 Ordinal Encoder 进行编码。使用 Random Forest Regressor 进行特征选择，输出特征重要性，为 XGBoost模型的训练做准备。 3.使用 XGBoost 进行预测，数据选择之前使用随机森林输出的特征重要性的前 30 作为特征变量；最后将问题转换为分类问题，预测房价的高和低。本文做的比较好的方面在于对于过多的特征采取了使用随机森林模型进行筛选，这使得后续使用 XGBoost 时训练时间大幅减小。在实际训练当中，使用随机森林的效果明显好于 XGBoost，这是本文的一个缺陷。另一方面，直接将回归任务转化为分类任务意义不大，如何评定该地的房价是高还是低是一件比较主观的事情，不同的划分标准对于模型的表现具有很大的影响。

2024-07-23

2020年12月金牛区空气质量报告 tableau报告

tableau报告成都市区县综合指数排名报表模板颗粒物浓度及综合指数排名：分析了各子站主要污染物PM2.5和PM10的浓度范围及其综合指数排名。抚琴、黄忠、西华站点的PM2.5和PM10浓度较高。 PM2.5和PM10比值及相关性分析：详细分析了各子站PM2.5/PM10比值及其相关性，指出整体比值较为稳定，且PM2.5与PM10的浓度变化呈正相关关系。首要污染物统计：统计了12月金牛区的首要污染物，发现PM2.5是主要污染物，占总天数的70.98%，其次是NO2和PM10。区域分析：分析了不同区域的污染状况，发现道路施工区域、汽车站及主干道附近颗粒物浓度较高，而公园和住宅区相对较低。

2024-07-23

吴恩达机器学习课后作业使用python3+jupyternotebook实现的

ex1-Linear Regression ex2-Logistic Regression ex3-Multi-class Classification and Neural Networks ex4-Neural Networks Learning ex5-Regularized Linear Regression and Bias v.s. Variance ex6-Support Vector Machines ex7-K-means Clustering and Principal Component ex8-Anomaly Detection and Recommender Systems 吴恩达机器学习课后作业

2024-07-21

去除水下图像的蓝绿色色偏恢复因光线衰减造成的亮度偏暗问题还原海底生物和环境的自然色彩，提升图像的视觉质量技术方法:

项目背景: 随着海洋强国建设的推进，水下图像复原在军事、科研、工业等领域的作用愈发重要。由于水下光线衰减、折射、散射等原因，原始水下图像质量较差，需要进行复原处理以提高视觉效果。本项目旨在研究和应用多种图像处理方法，实现水下图像的颜色校正和对比度增强。项目目标: 去除水下图像的蓝绿色色偏。恢复因光线衰减造成的亮度偏暗问题。还原海底生物和环境的自然色彩，提升图像的视觉质量。技术方法: 项目结合了以下多种方法进行水下图像复原：白平衡处理：灰度世界假设：假设在白光照射下，图像中的颜色通道平均值相等。完美反射算法：假设图像中存在完美反射的白色区域，以此作为参考点进行颜色校正。色彩丰富度检测：基于图像整体色彩丰富度分级，选择合适的白平衡算法。对比度增强：使用限制对比度自适应直方图均衡化（CLAHE），增强图像局部对比度。自制滤镜：调整色温以还原更自然的图像色彩。实验流程: 对输入图像进行色彩丰富度检测。根据色彩丰富度选择灰度世界假设或完美反射算法进行白平衡处理。使用CLAHE进行对比度增强。通过自制滤镜调整色温。

2024-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Flask集成的ERP系统Demo 该项目是一个基于Flask的Web版本ERP系统Demo，旨在实现企业信息管理的基础功能

matlab 可见光与红外光图像融合

该项目是一个基于Flask框架的用户管理模板，在Flask-Login的基础上添加了用户管理功能，旨在提供一个简洁且功能全面的用

该项目为SWPU数据库原理及应用大作业，名为《西柚の外卖屋》，是一个基于Flask框架和MySQL数据库开发的在线外卖订餐系统

C++ Qt 学生宿舍管理系统

上证50ETF基金数据分析及预测

C++ 命令行超市收银系统

图形用户界面（GUI）实现人脸识别功能 OpenCV

本实验旨在实现一个基于协同过滤的电影推荐系统，以此来处理和分析大规模数据集

项目描述：心脏病分析与预测

Matlab车牌监测与识别系统

基于启发式搜索的 AI 五子棋 python

项目围绕贵州茅台股票的历史开盘价数据展开，使用了长短期记忆网络（LSTM）模型来预测股票价格

- 使用Matlab工具实现图像空间域和频率域的增强 实验报告

计算机网络最终实验-聊天室 python

python大学生小组作业：识别图片中的数学公式并计算其中的结果

MATLAB 实验名称：语音信号降噪及特征提取可视化

C语言贪吃蛇（控制台版）

Matlab图像压缩 利用Matlab进行图像的DCT压缩编码，进行不同压缩比的实验操作

基于 Spark 的出租房屋大数据分析

基于数据挖掘的森林火灾预测分析 有代码和报告

历届奥运会奖牌数据（1896年-2022年）

机器故障数据集 故障预测分析

北京市二手房信息，用于数据分析、可视化

各城市-能源消费数据（2000-2022年）

当当网的书籍热销榜的排行榜

小米su7微博文本数据

全国热门旅游景点数据，用于数据分析、可视化

2024年软科中国高校排行榜主榜数据

高效AI五子棋对弈系统：基于启发式搜索与α-β剪枝

python智能信用卡欺诈数据分析，有ppt 基于大规模信用卡交易数据，通过建模过去的交易行为，以识别潜在的欺诈交易

综合自然语言处理工具：文本分析与生成系统 本项目旨在开发一款综合性的自然语言处理（NLP）工具，

python CD销售趋势与消费行为洞察：基于CDNow数据的全面分析

本项目旨在通过Python编程语言，从链家网爬取上海市二手房数据，并对其进行系统分析，以揭示上海二手房市场的动态和趋势

该项目为实践 《python数据分析与挖掘实战》中的基本项目以及课程拓展

第八届“泰迪杯”数据挖掘挑战赛C题：智慧政务中的文本挖掘应用

本文利用随机森林模型对房价数据进行预处理， 基于 XGBoost对房价进行预测；通过对比实验，发现优化后的 XGBoost模型在

2020年12月金牛区空气质量 报告 tableau报告

吴恩达机器学习课后作业 使用python3+jupyternotebook实现的

去除水下图像的蓝绿色色偏 恢复因光线衰减造成的亮度偏暗问题 还原海底生物和环境的自然色彩，提升图像的视觉质量 技术方法:

空空如也

- 使用Matlab工具实现图像空间域和频率域的增强实验报告

Matlab图像压缩利用Matlab进行图像的DCT压缩编码，进行不同压缩比的实验操作

基于数据挖掘的森林火灾预测分析有代码和报告

机器故障数据集故障预测分析

综合自然语言处理工具：文本分析与生成系统本项目旨在开发一款综合性的自然语言处理（NLP）工具，

该项目为实践《python数据分析与挖掘实战》中的基本项目以及课程拓展

本文利用随机森林模型对房价数据进行预处理，基于 XGBoost对房价进行预测；通过对比实验，发现优化后的 XGBoost模型在

2020年12月金牛区空气质量报告 tableau报告

吴恩达机器学习课后作业使用python3+jupyternotebook实现的

去除水下图像的蓝绿色色偏恢复因光线衰减造成的亮度偏暗问题还原海底生物和环境的自然色彩，提升图像的视觉质量技术方法: