![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 91
上杉翔二
悠闲地不定期更新多模态、搜索推荐、基础技术、前沿追踪的翔二
展开
-
神经开放域信息抽取OpenIE
即,给定一组标签,每个标记表示一个标记或一个标记的角色(例如参数、谓词),模型学习每个标记的标签或基于句子的跨度的概率分布,最后OpenIE系统根据预测的标签输出元组。随着深度学习技术的快速发展,许多神经OpenIE架构已经被提出,并实现了相当大的性能提高。在深度学习之前,传统的OpenIE系统要么是统计学的,要么是基于规则的,并且严重依赖于语法模式的分析。随着深度学习技术的兴起,信息抽取领域也出现了更多的可能。本篇博文整理一下IJCAI2022的一篇开放域神经信息抽取的综述(OpenIE),先放地址,..原创 2022-08-29 00:59:55 · 2184 阅读 · 0 评论 -
学生成绩预测和学业表现预警(EERNNM,GHANN-EC,HHA)
生成绩预测通过拿到学生的历史数据,如成绩,社交,其他行为等,预测学生的GPA,某课程的成绩,或者毕业后的发展预测等等。学生学业预警同上也是通过各种收集到数据,预测学生的状态是否处于异常,该任务的特点是如何做到及时的反馈。原创 2017-10-15 17:38:20 · 4803 阅读 · 2 评论 -
GPU Memory Problems in PyTorch(显卡爆炸与利用率不足)
如今研究人工智能,跑深度学习算法,显卡/GPU绝对是第一大门槛,所以不管您是1080Ti还是V100,如果不能发挥出GPU的最大能力,那它可能就是不是显卡而是块普通的砖头了吧。显卡爆炸显卡爆炸和内存的使用紧密相连,特别是在代码中对某些变量的不当使用,很有可能内存泄露,从而慢慢得导致显卡OOM(out of memory)。一般来说,计算模型时显存主要是模型参数 + 计算产生的中间变量,细分可以占用分四个部分:模型参数模型计算中间结果反向传播中间结果优化器额外参数但是如果模型出现显卡内存不足原创 2020-08-15 21:22:57 · 5611 阅读 · 0 评论 -
Data Mining Pipeline(数据挖掘实践指南--特征发现,处理与评估)
这一块的每一个小点都可以引申出很多的东西,所以先做一个大概,用以备忘,持续更新。 *一般过程: (1)数据采集 数据采集是最基本也很耗时间的工作。比如对于具体的工程事件,需要考虑采集哪些类型的数据?需要哪些属性?需要多少数据支撑?然后再实际去采集这些数据。(2)数据预处理 基于最后期望的目标结果,对于当前的数据,如何处理当前的数据类型,比如如何处理有序变量?如何处理无序变量?数据可信吗?有.............原创 2017-10-29 14:48:11 · 2820 阅读 · 0 评论 -
Memorandum
基础学习路线,大佬请绕道走不耽误时间了本博客受欧阳老师以留实验室遗产为由更新至今,主要以机器学习、深度学习知识为为主,给与入门和后续学习路线。受用胡适先生一句:怕什么真理无穷,进一寸有一寸的欢喜。AI大世界纷杂万分,只愿保发前行。下面是本实验室在实践中适用的基础必学路线与建议,只适用于基础学习,大佬请绕道走不耽误时间了:数据挖掘路线:KNN ,决策树, 线性回归,逻辑回归...原创 2020-01-08 19:19:43 · 1462 阅读 · 0 评论 -
Automated Machine Learning (AutoML)
数据是这个时代的核心,基于数据所构建的模型和决策为工业自动化贡献了很多,也已经改变了很多企业的商业模式、产品等,改变了世界也收益颇丰。这也是时下大数据、人工智能炒作得如此火爆,甚至一些机器人智能威胁论也层出不穷。但实际上机器学习、深度学习和深度强化学习的能力实在很有限的,近日来在NLP任务中大杀四方的BERT就被开始质疑是否真的学习到了推理能力,是否只是依靠大量数据集本身特点,如一些线索词来进行工作,而一旦加入干扰和对抗,效果就与盲猜无异。不说废话了,这也是需要人的原因,多少人工才能创造多少智能。原创 2019-07-22 16:59:19 · 3381 阅读 · 0 评论