【项目实训】个人工作总结

数据预处理

  1. 对爬取到的面经数据,按照公司进行分类:interview_classify

    • 匹配标题、合并公司的不同表达等等
  2. 数据清理:data_cleaning.py

    • 清洗数据,转换不规整的表达形式
    • 有些内容为空,我把url存下来交给爬虫同学再爬数据
  3. 长数据分割:split_data.py

    • 最开始的免费服务器GPU缓存不够,需要把数据拆分
    • 分别按照条数和文本大小做了切分

知识抽取

面试问题抽取

  1. 对面试经验以句子为单位聚类:cluster.py
    • 分别尝试了kmeans、dbscan、层次聚类,最后采用层次聚类
  2. 对聚类结果提取提取面试问题:
    • 使用function call功能格式化输出
      tool_register.py:注册工具,包括对提取面试问题的描述
      ques_summery_functioncall.py调用
    • 使用promtp指定格式化输出并用json加载
      ques_summery.py
    • 后者比较稳定,最后用第二个方法批量式输出

关键词抽取

  • 以分类句子为单位,抽取关键词:keyword_extract.py

前端代码编写

  • 写了面试经验 experience.vue 和公司一览 company

  • 讲面试经验与公司一览合并,加强封装:inerviewExperience

  • 写了两个组件:ExperienceBlog.vueJobInformationCard.vue

  • 在没有后端数据的情况下,使用mock模拟数据的返回:/mockindex.jsgetData.js中的一部分内容

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值