自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 针对仓库级代码生成的论文

库级别的代码生成

2024-02-05 00:02:12 423 1

原创 《论文讲解》ReFT: Reasoning with Reinforced Fine-Tuning

更好更聪明的微调语言模型方法

2024-02-03 11:12:43 870 1

原创 解决AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘

PyTorch Deepseed CPUAdam 问题

2024-01-21 14:39:07 1505

原创 找了很久的Bug:PyTorch Bus Error 程序直接挂掉

解决使用PyTorch + Deepspeed的 Bus Error

2024-01-20 18:16:35 318

原创 语言模型在数学解题中思维链(Chain-of-Thought)设计

大模型在数学解题中CoT的设计

2023-12-14 22:02:43 92 1

原创 记一次失败的Facebook Research Intern实习面试

背景:PHD,找了朋友内推才有的面试机会,不找朋友连消息都没有。面试内容第一轮Research Interview: 其实没有什么特别,就是一个team的人聊聊双方的research,最后再问问我还有什么问题。第二轮Coding Interview: 上来也还是会相互介绍一下,然后直接coding,题目应该是一道tree 的dfs的题目。不过后来再问了一个问题后 我好像不太理...

2019-02-28 10:31:37 3550

原创 机器学习文本分类Improved Iterative Scaling算法以及JAVA实现

IIS算法数学理论背景IIS算法主要用来计算参数估计的maximum-likelihood。 这篇文章主要是解读Adam Berger的算法(IIS Algorithm)。首先这里采用的是概率模型。其中参数解释:表示再输入文档是x的情况下,输出label为y的概率。(在Adam的文章中这个是表示language modeling的一个句子概率问题,但是这里用于文本分

2014-02-12 12:46:09 3203 5

原创 隐马尔科夫模型中的Forward-backward算法和java的实现

理论知识实现这个算法的时候遇到很多困难,因为当时连输入是什么,输出是什么都不知道。而且很多人把forward-backward算法和baum-welch两个算法等同起来了。所以我想先整理一下一些理论的知识。HMM三个基本问题在给定的模型中\lambda (A,B,\pi)

2014-01-05 16:25:55 4993 4

原创 R语言实现viterbi算法

最近初学HMM(Hidden Markov Model),老师让我自己试着用Java去实现viterbi算法,结果试了一下,发现数据的输入太麻烦,因为数据集是一些各种字符串和标点符号的矩阵吧,然后才开始学习R语言的, 首先先看看数据集。http://www.clips.uantwerpen.be/conll2000/chunking/数据集是从上面这个网站下载的,有一个train.tx

2013-12-31 12:50:27 3624 7

转载 转载WIKIPEDIA的CACHE知识

http://en.wikipedia.org/wiki/CPU_cache#Associativity==Associativity==[[Image:Cache,associative-fill-both.png|thumb|450px|Which memory locations can be cached by which cache locations]]The

2013-12-27 20:37:47 1103

转载 MapReduce: JobTracker默认task scheduling策略

如果没有自己定制的调度策略,MapReduce就采用自带的JobQueue策略分发task。这种基于FIFO的策略挺简单,能满足基本的业务需求,但缺点也很明显,如不能实现job的实时性、所有TT的执行能力对用户共享等问题。当然这些只是按以往理解来概括,只有了解具体实现后,才能总结它的影响。本篇blog会从task 分发的流程入手,详细描述默认调度策略的细节,然后试着总结它的优点及不足。预期在对

2013-07-30 10:12:58 1126

转载 ps命令!!!

ps -ef |grep javaPS是LINUX下最常用的也是非常强大的进程查看命令常见的使用方法是检查一个进程是否存在://以下这条命令是检查java 进程是否存在.ps -ef |grep java 1. ps简介前面介绍的两个命令都是用于查看当前系统用户的情况,下面就来看看进程的情况,这也是本章的主题。要对进程进行监测和控制,首先必须要了解当前进程的

2013-04-30 00:47:15 789

转载 你知道数据库索引的工作原理吗?

译者按:今天在翻译时无意中搜索到StackOverflow中的这篇文章(问答),觉得有必要翻译出来。不仅因为文章本身写得精彩,更重要的是它昭示了一个写文章(特别是技术文章)的重要法则——5W1H。 原文在此 How does database indexing work?(作者:Xenph Yan)问:随着数据库的增大,既然索引的作用那么重要,有谁能抛开具体的数据库来解释一下索引的

2013-04-05 22:15:46 969

转载 转 数据库进阶系列之一:漫谈数据库索引

一、引言对数据库索引的关注从未淡出我的们的讨论,那么数据库索引是什么样的?聚集索引与非聚集索引有什么不同?希望本文对各位同仁有一定的帮助。有不少存疑的地方,诚心希望各位不吝赐教指正,共同进步。[最近首页之争沸沸扬扬,也不知道这个放在这合适么,苦劳?功劳?……]  二、B-Tree我们常见的数据库系统,其索引使用的数据结构多是B-Tree或者B+Tree。例如,MsSql使用的是

2013-04-05 22:06:05 567

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除