论文
文章平均质量分 78
weixin_40293999
前几年web后端,后来AI深度学习,会一些运维。 AI聚焦于CV领域,熟悉nlp
展开
-
【深度学习】N-gram模型
简单地说,语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否合理的概率?当然,一开始人们都是进行基于规则的语言模型的研究,但这样往往有很大的问题,后来有人发明了基于统计的语言模型,并发现了其巨大的效果,而今天我们要讲的N-gram语言模型,也正是一种于基于统计的语言模型。N-gram语言模型可以说是当下应用最广的语言模型,当然了,随着深度学习的发展,现在也有用RNN/LSTM这样的神经网络语言模型,效果比N-gram有时候要更好一些,但RNN解码出每一个词都得现算语言模型分数,有较慢的劣势。原创 2024-06-10 21:32:01 · 514 阅读 · 0 评论 -
【论文精读】Reducing Write Amplification in Flash by Death-time Prediction of Logical Block Addresses【完结】
Reducing Write Amplification in Flash by Death-time Prediction of Logical Block Addresses 是2021年的文章文章链接:https://dl.acm.org/doi/10.1145/3456727.3463784作者presentation:https://www.youtube.com/watch?原创 2024-02-08 20:23:25 · 934 阅读 · 1 评论 -
【论文精读】L-QoCo: Learning to Optimize Cache Capacity Overloading in Storage Systems 存储方向A类论文[更新完成]
解析强化学习+存储系统的论文原创 2024-01-24 13:02:17 · 1285 阅读 · 0 评论 -
【论文精读】Learning-based Data Separation for Write Amplification Reduction in Solid State Drives【初稿完】-A类
ssd的垃圾回收导致写放大,减少这一问题的关键是根据生命周期分离数据;先前的工作提出使用机器学习来准确预测数据寿命,但预测是在主机端执行的,增加主机存储栈的负载。我们提出了PHFTL,一个实用的,整体的FTL设计与设备端基于学习的数据分离。机器学习模型PHFTL准确且自适应地预测每个写入页面的生命周期。引入了一套使能技术来保持较低的计算和存储开销。对PHFTL的全面评估证明了其在实际硬件上的优越性和可行性。原创 2024-01-22 19:53:54 · 885 阅读 · 0 评论 -
【LSM tree 】Log-structured merge-tree 一种分层、有序、面向磁盘的数据结构
LSM Tree 全称是Log-structured merge-tree, 是一种分层,有序,面向磁盘的数据结构。其核心原理是磁盘批量顺序写比随机写性能高很多,可以通过围绕这一原理进行设计和优化,让写性能达到最优。相较于传统的B+树,它减少了磁盘随机读取的需求,从而在一定程度上改善了数据库的写能力,当然在一定程度上牺牲了数据库的读能力。原创 2023-12-09 16:07:18 · 451 阅读 · 0 评论 -
【论文精度】F2FS: A New File System for Flash Storage【整理中】
原始论文ref:https://www.usenix.org/system/files/conference/fast15/fast15-paper-lee.pdf作者ppt ref:https://www.usenix.org/sites/default/files/conference/protected-files/fast15_slides_lee.pdf。原创 2023-12-08 08:01:26 · 430 阅读 · 0 评论 -
【论文精读】OrcFS: Orchestrated file system for flash storage 【未完】
若有,则释放锁,然后去执行相应的写。所以这里提出了QPSC。非阻塞的写和非阻塞的垃圾回收都是为了减少主机写的延迟,但是前者的目的是为了减少page cache miss的危害。之前也有很多冗余去除的方法,区分与之前方法的差异主要有以下三点:(1)文件系统直接管理mapping table. (2)避免段清理影响QoS. (3)block patching的方式避免写放大。之前也有在文件系统和FTL层面协同处理的,但是他们没有考虑GC的性能和page size不一致的写放大,让之前的处理难以应用到实际场景。原创 2023-12-07 21:45:33 · 798 阅读 · 0 评论 -
【学术综述】-如何写出一篇好综述-写好综述要注意的问题
从昨天晚上【2023.11.09 22:00】到今天22:29的,花了一天的时间在读这篇survey荷兰 阿姆斯特丹大学的survey 49页【ref 15页】 是预发布的,但读起来收获很大。所以记录下来。对应哔站视频食用更佳:https://www.bilibili.com/video/BV1xa4y1S7xU/?原创 2023-11-10 22:57:41 · 272 阅读 · 0 评论 -
【论文学习】Improving Reliability and Performance of Storage Stacks on next generation Solid State Drives
ssd优点:高性能+低能耗,所以它正在取得hdds但是它带来了2个挑战:1)ssd以电子电荷的形式存储数据。这大大增加了ssd中的位级错误。,随着对高容量SSD的需求不断增加,在SSD介质的相同电压范围内存储的比特越来越多。这进一步降低了SSD驱动器的可靠性,因为写入驱动器的每个数据位的误差范围较低。2)原创 2023-07-27 18:48:41 · 57 阅读 · 0 评论 -
【论文】综述--Indexing in flash storage devices: a survey on challenges, current approaches, and future tr
Index 已经在 DBMSes equipped with hard disk drives (HDDs) 硬盘数据库上用的很好了,近些年,SSD替换了HDDs,但我们不能仅仅把它当成另外一种块设备,而忽略它的特性:1 ,erase-before-write, 写前擦除2,wear-out 损耗3, asymmetric read/write, 非对称读写ssd的这些特性要求对主要为hdd设计的索引技术进行重构甚至重新发明。原创 2023-07-24 19:31:27 · 74 阅读 · 0 评论 -
【ssd 相关总数】A Survey on Tiering and Caching in High-Performance Storage Systems
在软件中,缓存和分层是长期建立的概念,用于在这样的存储网络中处理文件操作和自动移动数据,以及在低成本介质中管理数据备份。-------待续------原创 2023-07-24 17:09:28 · 62 阅读 · 0 评论 -
Bao: Learning to Steer Query Optimizers 论文翻译
相反,为了完全放弃传统的查询优化器,以换取完全学习的方法,bao bao 认识到传统的查询优化器包含了数十年精心手编码的智慧。换句话说,bao bao 寻求在现有的查询优化器之上建立学习组件,以增强查询优化,而不是完全替换或丢弃传统的查询优化器。由于 bao 利用了底层查询优化器,因此 bao 具有成本和 cardinality 估计,允许 bao 使用更为灵活的表示方式,能够像底层查询优化器一样适应新的数据和表结构变化。在某种程度上,bao 位于现有查询优化器的顶部,并尝试学习传入查询和此类提示的映射。原创 2023-04-04 19:41:13 · 752 阅读 · 0 评论