面试经历1珠海小作坊AIGC算法实习生
1.自我介绍:
答:问好,介绍教育经历,有三段实习经历,且发过一篇论文。
2.问:介绍一下你发表的论文:
答:这个论文是关于中药医学说明书文本的实体识别,本人做了bert模型预训练,中药医学说明书文本数据的预处理。
3.问:那说一下你是怎么处理这个数据集的:
答:处理中药医学说明书文本的数据集主要是用了BIO标签标注用jieba分词工具分词,并且对数据集进行中译再译中的数据增量处理(称为回译的方式)。
4.问:你还做了关于gpt2的项目,能讲一下gpt2模型吗:
答:gpt2模型是transformer的encoder部分(答错应该是decoder部分)。
5.问:那你能讲一下encoder是由什么组成的吗:
答:encoder部分是由很多个block组成,block里由self-attention的输出输入到一个fully connected 的network里。
6.问:你能讲一下chatgpt的基本吗?
答:chatgpt是transformer的encoder和decoder部分组成(应答chatgpt由以下几个原理组成1.Tokenization分词器,2.Transformer模型的encoder和decoder部分3.大规模的无监督学习方式进行预训练4.进行微调来适应不同的场景5.beam search算法来选择最佳的n个候选回复,选择得分最高的作为最终回复)
7.问:你要是做一个中文文本语言模型你会怎么做?
答:我会将一段文本进行分段,即一段文本一部分为中文,一部分为英文,输入模型,这样预训练的效果会更佳。
8.问:你说的是预训练部分,除了预训练部分你还有什么措施吗?
答:除了预训练部分就是选用分词器(后面回答的忘记了,分词器,模型选择,预训练,微调都可以说)
9.问:那你有了解过别的大语言模型吗:
答:主要涉猎的是bert,gpt2,最近在github上下载openai的开源项目来做一下。
10.问:那你了解提示词的编写吗:
答:最近有在看一些教程处于学习阶段。
11.问:那你能说一下prompts的具体应用吗:
答:一开始没理解问题,回答prompts的应用还是很多的可以编写代码,文档,文案等,(其实他是像我回答prompts的应用场景,应用场景有问答问题,基于示例回答,增加示例,推理,写无中生有的如代码,锦上添花的如改写内容,增加角色或人物,锦上添花的信息解释,化繁为简的信息总结和信息提取,当时只答出来了增加角色和信息解释)
12.问:那如果想让chatgpt运行精密的计算题应该用什么样的技巧:
答:可以增加角色,让其认为自己是数学老师,(应答可以使用推理的技巧,后面让技术老师更正了)
13.问:那如果让你编写prompts,你觉得怎么编写的效率会比较高呢:
答:我认为应该通过固定的框架来写,最必要的题目的Instruction指令的描述,可以选填一些背景信息则是上下文信息,选择一些输入的数据,告知模型需要处理的数据,选填output Indicator,告知模型我们要输出的类型和格式。
14.问:chatgpt的回答是比较发散的如果你想让其有固定的回答方式你会怎么做:
答:可以给chatgpt举出例子,一个问题,一个回答的示例,最后问出自己想问的问题,然后让chatgpt回答。
15.问:看你的简历你还用resnet-50模型训练过,能说一下是怎么做的吗:
答:我是用图片作为输入,经过预处理后图片输入到resnet-50的模型中让其进行眼部的部位识别。
16.问:那你能说一下你是怎么进行预处理的吗:
答:我们对图片进行部位的标注,还有对图片进行降噪处理。
17.问:为什么不选用别的模型:
答:当时还是大一新生,只是跟着做这一项目。
18.问:代码题,如果给你一个无序数组怎么样处理呢:
答:暴力方法就是两个for循环就可以处理了,还可以使用双指针法,使用快指针和慢指针,快指针往前走的时候通过对慢指针进行比较,如果快指针比慢指针小的话,就对就把快指针的值赋给慢指针。
19.问:那这样处理的时间用了多少:
答:O(n).
20.问:那这样快慢指针只走一次就可以排好序吗:
答:是的,(后面被质疑了,这题答错了)
21.问:代码题,链表如果有环,应该怎么样判断:
答:使用快慢指针,快指针走两步,慢指针走一步,若快指针直接null就没有环,如果有环快慢指针就总会相等。
22.问:那快指针就是比慢指针快一步的话,为什么会相等呢?
答:(没能答出来,但是现在想想如果是一个环,快慢指针类比跑圈里跑得快和跑得慢的两个人,那就是能相遇的。)
总结:算法模型原理记忆的不够熟悉,代码题目只是背诵解法不够了解原理,代码的处理的时间和空间也不熟悉,大语言模型了解的不够多,prompts不够深入。