jd记录 01

记录账号

已于 2023-11-14 11:44:01 修改

阅读量54

点赞数

文章标签： python hive hadoop

于 2023-11-14 10:02:48 首次发布

本文链接：https://blog.csdn.net/Worse_Programmer/article/details/134392305

版权

相关技能
1、具备扎实的 Python 编程能力，并能根据面向对象设计思想进行程序开发。熟悉常用的 Python 三方库，能够编写高效、可维护的代码：
2、熟悉 Linux 开发环境，了解常用Linux 操作命令和编写简单的 Shell 脚本;
3、熟练掌握MySOL，理解关系型数据库事务机制；
4、熟悉Hadoop生态圈，掌握 HDFS 分布式文件系统、 MapReduce 计算以及 Yarn 任务调度流程;
5、熟悉Hive数仓，熟练使用HiveSQL，能够针对不同的应用场景进行Hive优化；
6、熟悉 Spark技术栈, 包括RDD和DataFrame的使用，能够使用SparkCore结合SparkSQL 进行数据的统计和计算，以支持大规数据处理和分析任务；
7、了解Spark的Structured Streaming结构化流处理，能够实时处理和分析数据流。掌握流处理的概念、原理和使用方法，以满足实时数据处理的需求；
8、了解FineBI可视化报表工具，能够使用其对数据进行直观展现和分析。能够设计和创建各类报表，并通过FineBl 提供数据驱动的决策支持；
9、熟练使用消息队列工具Kafka、日志数据采集工具 Flume、纯内存计算引擎 Presto；
10、熟练使用Pycharm, DataGrip,MobaXterm, Git等大数据相关工具，能够高效地进行开发、调试和管理大数据项目;
11、熟悉 CDH 平台、掌握 Sqoop、DataX 数居抽取、Zookeeper 分布式协调服务等大数据组件工具的使用：
12、英语:大学英语四级（CET-4)，能够熟练查看官方文档;

使用的模型onnx和llama，做小艺问答，还用bert分类，llama用于检索时机，目前工作是做plan场景解析，主要是加油和订票，还有停车场，解析query，获取用于加油或订票意图，并且截取订票的出发地、目的地、出发时间等，拆解为单个子任务，然后再通过plugin模型将子任务映射为端可执行的函数与传参，将要执行的函数和传入参数传到端，端给用户做出响应，我们跟盘古模型的关系就是我们回答不出来的东西，最后都是盘古回复，检索时机：判断query是不是知识问答要回答的问题，就是个二分类，结果就是要检索还是不检索；onnx模型用来向量化，文本向量化。

输入请求信息进入服务器，需要向量化的字段去模型跑一边返回遗传vector类型的向量化编码，然后和其他字段一起存在es里面，插叙的时候，既可以文本检索也可以向量检索。如果只是文本检索，就不会走模型，通过文本匹配去es中检索返回内容。如果是向量检索，会先将"vectorTextField"中的内容去模型跑一遍返回一串vector编码，再用这串编码去es中进行向量化检索（比如向量化余弦算法，具体不太清楚），最后得到结果返回

之前做知识问答，通过华为官网的用户手册，通过网页爬虫，获取手册文本，转换和清洗为标准化数据，给模型做词库训练，再进行数据迭代，对模型再训练。

记录账号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jd记录 01

6、熟悉 Spark技术栈, 包括RDD和DataFrame的使用，能够使用SparkCore结合SparkSQL 进行数据的统计和计算，以支持大规数据处理和分析任务；10、熟练使用Pycharm, DataGrip,MobaXterm, Git等大数据相关工具，能够高效地进行开发、调试和管理大数据项目;9、熟练使用消息队列工具Kafka、日志数据采集工具 Flume、纯内存计算引擎 Presto；5、熟悉Hive数仓，熟练使用HiveSQL，能够针对不同的应用场景进行Hive优化；
复制链接

扫一扫