jd记录 01

相关技能
1、具备扎实的 Python 编程能力,并能根据面向对象设计思想进行程序开发。熟悉常用的 Python 三方库,能够编写高效、可维护的代码:
2、熟悉 Linux 开发环境,了解常用Linux 操作命令和编写简单的 Shell 脚本;
3、熟练掌握MySOL,理解关系型数据库事务机制;
4、熟悉Hadoop生态圈,掌握 HDFS 分布式文件系统、 MapReduce 计算以及 Yarn 任务调度流程;
5、熟悉Hive数仓,熟练使用HiveSQL,能够针对不同的应用场景进行Hive优化;
6、熟悉 Spark技术栈, 包括RDD和DataFrame的使用,能够使用SparkCore结合SparkSQL 进行数据的统计和计算,以支持大规数据处理和分析任务;
7、了解Spark的Structured Streaming结构化流处理,能够实时处理和分析数据流。掌握流处理的概念、原理和使用方法,以满足实时数据处理的需求;
8、了解FineBI可视化报表工具,能够使用其对数据进行直观展现和分析。能够设计和创建各类报表,并通过FineBl 提供数据驱动的决策支持;
9、熟练使用消息队列工具Kafka、日志数据采集工具 Flume、纯内存计算引擎 Presto;
10、熟练使用Pycharm, DataGrip,MobaXterm, Git等大数据相关工具,能够高效地进行开发、调试和管理大数据项目;
11、熟悉 CDH 平台、掌握 Sqoop、DataX 数居抽取、Zookeeper 分布式协调服务等大数据组件工具的使用:
12、英语:大学英语四级(CET-4),能够熟练查看官方文档;

使用的模型onnx和llama,做小艺问答,还用bert分类,llama用于检索时机,目前工作是做plan场景解析,主要是加油和订票,还有停车场,解析query,获取用于加油或订票意图,并且截取订票的出发地、目的地、出发时间等,拆解为单个子任务,然后再通过plugin模型将子任务映射为端可执行的函数与传参,将要执行的函数和传入参数传到端,端给用户做出响应,我们跟盘古模型的关系就是我们回答不出来的东西,最后都是盘古回复,检索时机:判断query是不是知识问答要回答的问题,就是个二分类,结果就是要检索还是不检索;onnx模型用来向量化,文本向量化。

输入请求信息进入服务器,需要向量化的字段去模型跑一边返回遗传vector类型的向量化编码,然后和其他字段一起存在es里面,插叙的时候,既可以文本检索也可以向量检索。如果只是文本检索,就不会走模型,通过文本匹配去es中检索返回内容。如果是向量检索,会先将"vectorTextField"中的内容去模型跑一遍返回一串vector编码,再用这串编码去es中进行向量化检索(比如向量化余弦算法,具体不太清楚),最后得到结果返回

之前做知识问答,通过华为官网的用户手册,通过网页爬虫,获取手册文本,转换和清洗为标准化数据,给模型做词库训练,再进行数据迭代,对模型再训练。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值