自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 水资源质量数据集分析

具体来说,当P值非常接近于零时,我们有足够的理由拒绝原假设,因为我们观察到的数据在原假设下的概率非常小,这被认为是统计上显著的。在统计学中,P值通常是一个介于 0 和 1 之间的概率值,表示观察到的数据或更极端情况出现的概率。这意味着观察到的数据在原假设下出现的概率较低,我们有足够的证据来怀疑原假设的真实性。水的浊度取决于悬浮状态的固体物质的数量。)是在统计假设检验中的一个重要指标,用于评估观察到的数据与假设之间的一致性。浓度根据水中有机物质的含量、处理水所需的氯量以及所处理的水的温度而变化。

2024-05-01 21:09:30 1095

原创 杂货店商品数据集挖掘关联规则实验

(2)选择事务集中前100条事务,选择合适的支持度阈值,使用Apriori算法和FP-growth算法挖掘频繁项集(推荐使用mlxtend包的apriori和fpgrowth函数),并对比apriori算法和fpgrowth算法的时间复杂度;(比如用户1000在2015年3月15日对应的事务为{‘sausage’,’whole milk’,’semi-finished bread’,’yogurt’}),然后按照用户ID递增,时间递增的方式对事务进行排序;7. 排版工整自洽,图表标题准确(10分)

2024-05-01 21:07:38 736

原创 最优化方法大作业

为此,如何从已有的地球观测数据中高效提取建筑复合信息,成为精细化城市感知与建模研究的关键前提(吴志强等,2022)。由于一张图像中往往会存在与建筑本身无关的物体(如人、树、汽车等),因此为了提高分类的准确性,本文首先通过选择性预处理获得图像中的建筑候选区域,本文采用选择搜索算法和CASC(Candidate Area Size Comparison),具体步骤如下:在选择搜索算法中,我们基于图形的分割方法获得像素级的分割区域,利用该算法的多重相似性策略进行区域合并,以此捕获所有物体的候选区域。

2024-04-25 14:46:01 976 1

原创 数据结构小作业

一、“值的集合”是数据结构,“数据结构”的集合和在该集合上的一组操作叫做结构类型。二、“值的集合”是基本的原子类型(int、double、char、byte、boolean、指针类型、空类型 …两者的书写规定不同。算法是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。总之,数据结构是一种“值的集合”,这种值的集合+值集合上的操作 = 结构类型,而结构类型是数据类型中的一种。我的理解:感觉和类、结构体很相似,就是把一堆不同数据类型的数据集合在一起,规定它们可行的操作。

2024-04-25 14:41:26 397 1

原创 阅读《MixMatch: A Holistic Approach to Semi-Supervised Learning》

2024年04月02日。

2024-04-25 14:35:42 530 1

原创 实验3:神经网络与依存分析

(可以总结实验中出现的问题以及解决的思路,也可以列出没有解决的问题)1.在安装stanford-corenlp时出现了很多问题正常分词是可以使用的,但当我尝试中文分词时,总是报错:经查询了解,stanford-corenlp文件需要和pycharm中安装的stanfordcorenlp库版本相同,且中文包需要和full文件版本一样,最后可以成功运行2.一开始添加隐藏层后正确率只有50%左右,与没加隐藏层之前没什么区别。后来发现添加隐藏层后损失函数也要做对应修改,使得两个隐藏层的参数都能够及时更新。

2024-04-25 14:34:11 579 1

原创 NLP任务学习

(总结对该任务学习心得,也可以列出对该任务的问题、疑惑与思考)1.多样性:中文分词任务具有多样性,不同的文本场景、行业、领域可能需要不同的分词方法和模型。因此,在实际应用中需要根据具体情况选择合适的分词工具和技术。2.方法比较:常见的中文分词方法包括基于规则的方法、基于统计学习的方法和基于深度学习的方法。不同方法各有优缺点,需要根据实际需求进行选择和比较。3.工具选择:针对中文分词任务,有许多开源工具可供选择,如jieba、THULAC、SnowNLP等。

2024-04-25 13:44:31 868 1

原创 词向量评价

(可以总结实验中出现的问题以及解决的思路,也可以列出没有解决的问题)GloVe词向量文件必须是以以下形式,才能被中的函数处理,然而文件开头并没有显示。已知该txt文件是100维向量,并且算得其大小为400000,于是手动添加,使其可以正常调用库函数运行。tencent-ailab-embedding-en-d100-v0.1.0-s文件中有许多%+xxx的word,不知道什么意思怎么处理,导致类比推理任务也出现这些乱码。

2024-04-25 13:38:32 994 1

原创 RNN文本情感分类

defiftokeninelse'the'])))fortokenintokens]ifelif'the'return(可以总结实验中出现的问题以及解决的思路,也可以列出没有解决的问题)。这个错误通常发生在数据加载过程中,提示批次中的元素大小不一致。这可能是由于在构建数据集对象时,某些句子的长度超过了指定的最大长度,而某些句子没有达到maxlen,导致在构建批次时出现不一致的情况。于是采用统一为100个token的方式来解决该问题。2.

2024-04-25 13:32:03 1099 1

原创 实现线程同步

实现线程同步3个生产者,2个消费者,库存大小为10生产者共享一个变量产品编号productID,每生产一个产品,productID加1,不能出现重复编号。每个生产者每生产一个产品,打印出生产者的进程/线程标识符信息,以及生产的产品编号信息;生产者生产一个产品后,休眠2ms消费者每消费一个产品,打印出消费者的进程/线程标识符信息,以及消费的产品编号信息;消费者消费一个产品后,休眠3ms//库存int//生产消费库存的第几个空位intbufID = 1;//

2023-12-10 10:47:48 892 1

原创 基于离散事件仿真模拟进程调度

若加上时间片的当前时间(current_time)满足一些新进程的到达时间,则将这些新进程先加入就绪队列,最后将刚才执行完的进程加入就绪队列末尾。非抢占式的FCFS, SJF, HRRF就很明显,决策时刻都是作业运行结束时,所以除了将就绪队列按不同的机制进行排序来决定执行先后顺序(分别是arrival_time, running_time, 响应比优先),其他的代码都是一样的。该算法将时间划分成定长时间片,时间片完成后发生时钟中断,将当前运行进程放入就绪队列末端,而去就绪队列的第一个job进行执行。

2023-12-10 10:46:24 972 1

原创 PostgreSQL特性总结

PostgreSQL有众多功能,具有标准兼容性、自由开源性以及高度可定制性。PostgreSQL可在所有主要操作系统(即Linux,UNIX(AIX,BSD,HP-UX,SGI IRIX,Mac OS X,Solaris,Tru64)和Windows等)上运行。PostgreSQL支持文本,图像,声音和视频,并包括用于C/C++,Java,Perl,Python,Ruby,Tcl和开放数据库连接(ODBC)的编程接口。

2023-12-10 10:41:11 966 1

原创 Out of order database engine

查询内并行性是数据库软件为数据密集型查询提供可接受的响应能力的关键。许多研究人员已经研究了如何为数据库查询实现更大的执行并行性。分区是一种代表性方法,它将查询划分为多个子任务并并行执行它们。但是,给定一个新查询,最佳划分不一定是显而易见的。数据库软件利用启发式规则或统计信息来决定如何在执行之前划分查询。作为实现执行并行性的另一种方法,本文提出了无序数据库执行(OoODE),这是一种大规模并行查询执行方法,可一致地为数据库查询提供显着的加速。

2023-12-10 10:40:20 864 1

原创 管理信息系统(MIS)设计

按照“图书借阅系统数据库设计.pdf”完成数据库管理系统设计的全过程。实验4:管理信息系统(MIS)设计。

2023-12-10 10:38:54 1170 1

原创 杂货店商品数据集频繁项集挖掘实验

创建一个空字典,将4.1处理好的列表的每一项取出,以食物名为键,每种食物在事务集出现的次数作为值,食物每出现一次,给对应键的值+1,计算支持度计数,与阈值作比较,若大于阈值则为频繁项。3)元组tuple中的元素值是不可修改的(但可以通过切片slice的方式来获取指定的索引起始位置和终止位置的元素),而集合set中的元素是可修改的,比如删除指定的元素。在Python中,set 中的元素必须是可哈希(hashable)的数据类型,并且集合自身是不可哈希的。2)元组tuple中的元素是可以重复的,而集合。

2023-11-27 11:18:59 395

原创 加利福尼亚房价预测实验

其实从数据库的角度来说,数据离散化也可以实现概念分层,比如用到的数据集中有经纬度属性,每个经纬度表示一个街区的真实地理位置,如果有辅助数据的话,我们可以合并邻近的街区为社区,这样经纬度属性就会变为社区属性,还可以将社区进一步合并为城市,这样经纬度属性就生成了城市名称属性。对训练集分别随机抽取10%,30%,50%和80%的样本作为训练子集,利用训练子集训练线性回归模型,然后在测试集上预测房价属性。属性是否需要离散化要根据数据挖掘方法来定,此次作业使用线性回归模型,需要连续值属性,并不做离散化处理。

2023-11-27 11:17:31 1734

原创 泰坦尼克号数据集乘客幸存分析实验

2)混合属性相异性度量规则,根据公式可知,由于我们已将含有空白值属性的样本删除,我们要计算出每两个对象之间除了非对称二元属性(若两对像取值皆为0)之外的属性总数。再根据不同属性所属的类型(标称,对称二元,数值,序数)来按照对应的规则计算其向异性,再根据公式相加即可得混合类型属性集的相异性度量。(2)将幸存属性设置为类别标签,使用K近邻算法作为分类算法(无需考虑PassengerID,name,ticket和cabin,去掉带缺失属性的样本),在测试集上预测乘客的幸存情况并计算准确率。Name:乘客的姓名。

2023-11-27 11:13:30 1070

原创 数据相异性

1. 简述如何计算被如下属性描述的对象的相异性:(1)标称属性;(2)非对称的二元属性;(3)数值属性。2. 假设有一个描述仓库货品的二维数据集:A1A2x11.51.7x221.9x31.61.8x41.21.5x51.51.0该数据集包含了2个数值属性,5个数据对象。假设你的任务是根据用户提供的A1和A2上的描述,给出最相似的商品。

2023-11-27 11:07:58 1869

原创 泰坦尼克号数据集分析实验

同样的,统计总乘客中Pclass属性的特征分布,已经幸存者在不同Pclass值中所占比例,可以明显发现,一等舱的乘客幸存概率最大,即社会地位越高,生存情况越好。(2)使用sns.catplot()函数绘制Pclass(序数)属性,Sex(二元)属性,Embarked(乘客上船地点,标称)属性的柱状图。再抽出幸存者的数据,进行相同的度量操作,进行对比。(1) 自由选择可视化方法,可视化数据集中的Pclass属性,Sex属性,Age属性,SibSp属性,Fare属性和Embarked属性;

2023-11-25 23:37:04 1797

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除