Task02大模型开发进阶

最新推荐文章于 2024-08-02 16:23:14 发布

2401_84369074

最新推荐文章于 2024-08-02 16:23:14 发布

阅读量285

点赞数 13

文章标签： gpt python

本文链接：https://blog.csdn.net/2401_84369074/article/details/138289440

版权

在自然语言处理（NLP）领域，Embedding是一种将文本（如字、词、句、段等）转换为固定维度稠密向量的技术。这些向量旨在捕捉文本中蕴含的语义和上下文信息，使得相似的文本在向量空间中的表示也相近。Embedding的引入极大地提升了NLP任务的性能，尤其是在深度学习模型中。

Token化是生成Embedding之前的必要步骤，它将原始文本切分为更小的单元（即Token）。Token化的方式有多种，包括按字、按词、按Bi-Gram等进行。按字Token化即将文本中的每个字作为一个Token；按词Token化则是将文本中的每个词作为一个Token；按Bi-Gram Token化则是将相邻的两个字或词组合成一个Token。不同的Token化方式会对Embedding的生成和后续的NLP任务产生不同的影响。

在深度学习模型，尤其是大模型兴起的背景下，按字Token化逐渐成为主流。这主要是因为按字Token化能够避免分词错误的问题，同时对于未知词或新词也能够进行有效的表示。此外，随着模型规模的不断增大，按字Token化能够更好地利用大规模语料库中的信息，从而生成更准确的Embedding。

值得注意的是，虽然句子是语义的最小单位，但在实际应用中，我们通常不会直接对整个句子进行Embedding。相反，我们更倾向于对句子中的词或字进行Embedding，并通过某种方式（如池化、注意力机制等）将这些Embedding聚合起来以表示整个句子的语义。

案例：质谱AI的调用

import time

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="填写您自己的APIKey")
response = client.chat.asyncCompletions.create(
  model="glm-4",  # 填写需要调用的模型名称
  messages=[
    {
      "role": "user",
      "content": "我现在需要在面试场景下进行自我介绍，我面试的岗位是产品经理，我应该怎么介绍自己，才能达到展示自己的能力与岗位匹配度的目的。"
    }
  ],
)
task_id = response.id
task_status = ''
get_cnt = 0

while task_status != 'SUCCESS' and task_status != 'FAILED' and get_cnt <= 40:
  result_response = client.chat.asyncCompletions.retrieve_completion_result(id=task_id)
  print(result_response)
  task_status = result_response.task_status

  time.sleep(2)
  get_cnt += 1

AsyncCompletion(id='……', request_id='……', model='GLM-4', task_status='SUCCESS', choices=[CompletionChoice(index=0, finish_reason='stop', message=CompletionMessage(content='在面试场景下，作为产品经理的候选人，你的自我介绍应当旨在突出你的专业技能、工作经验以及与该岗位的匹配度。以下是一个结构化的自我介绍模板，你可以根据自己的实际情况进行调整：\n\n---\n\n尊敬的面试官，您好！我叫[您的姓名]，毕业于[您的毕业院校]，专业是[您的专业]。在过去[具体时间]的工作经历中，我专注于产品管理领域，曾在[前公司名称]担任产品经理，负责[具体工作内容，例如：产品规划、设计、开发协调和上线后数据分析等]。\n\n我深知作为产品经理，不仅需要具备严谨的逻辑思维和市场敏锐度，还需要有优秀的团队协作和沟通能力。在我的职业生涯中，我成功推动了[具体成就，例如：某产品的用户量增长XX%或提高了XX%的用户满意度等]，这些都得益于我对用户需求的深入理解以及对产品细节的严格把控。\n\n针对今天面试的产品经理岗位，我特别想强调以下几点关于我的能力和经验：\n\n1. **用户洞察力**：我有丰富的用户研究经验，能够通过数据分析等方法，深入理解用户需求，从而设计出更贴合用户的产品。\n\n2. **项目管理**：我具备良好的项目管理能力，能够合理规划产品开发周期，确保按时按质完成产品迭代。\n\n3. **团队协作**：我擅长协调跨职能团队，与设计师、工程师和市场人员紧密合作，共同推进产品从概念到市场的全过程。\n\n4. **数据驱动**：我习惯于用数据说话，通过A/B测试和用户反馈，量化产品改进的效果，以数据指导产品优化方向。\n\n选择贵公司，是因为[你对公司的了解和选择这个公司的原因，展示你对公司的赞赏和期望]，我相信我的背景和贵公司的岗位要求高度匹配，我也渴望能够在这里发挥我的专长，为公司的发展贡献力量。\n\n最后，非常感谢您给我这次面试的机会，期待能够成为贵公司的一员，共同创造更多的价值。\n\n---\n\n通过这样的自我介绍，你可以清晰地向面试官展示你的能力与岗位的匹配度，同时表现出你对这个岗位的热忱和对公司的认同。记得在介绍中保持语言的简洁明了，尽量用具体的例子来支撑你的观点，让面试官留下深刻印象。', role='assistant', tool_calls=None))], usage=CompletionUsage(prompt_tokens=1060, completion_tokens=449, total_tokens=1509)……

2401_84369074

关注

13
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Task02大模型开发进阶

在自然语言处理（NLP）领域，Embedding是一种将文本（如字、词、句、段等）转换为固定维度稠密向量的技术。这些向量旨在捕捉文本中蕴含的语义和上下文信息，使得相似的文本在向量空间中的表示也相近。Embedding的引入极大地提升了NLP任务的性能，尤其是在深度学习模型中。Token化是生成Embedding之前的必要步骤，它将原始文本切分为更小的单元（即Token）。Token化的方式有多种，包括按字、按词、按Bi-Gram等进行。按字Token化即将文本中的每个字作为一个Token；
复制链接

扫一扫