项目实训-智能生物序列分析平台-项目工作总结5

前端模块工作情况

  1. 引入antd组件库、echarts并开始echarts图标可视化编写工作——蒋一
  2. 完成About、Reference组件——林弘毅

引入antd

  1. 安装
  2. 引入全部Css样式
  3. 在App.js里使用Antd的按钮组件、小图标组件
  4. 使用日历组件
  5. React用Antd高级配置,按需引入css样式配置
  6. 自定义主题

echarts

引入并尝试对echarts进行配置,使用echarts实现部分图表的可视化可交互组件

About组件

由于about组件只需要放置一些信息,且无明显的复用内容,因此没有采用组件化编写,直接使用Material UI提供的组件完成编写。与此对比的是下文出现的reference组件,详见下文。

Reference组件

在reference组件中,存在大量可重复使用的Ref组件代码结构。
Ref组成了一个参考文献的全部结构,使reference组件可以简单地直接堆砌Ref组件并向其传入蚊香相关参数即可快速复用Ref组件的内容,搭建参考文献页内容。
为了降低重复代码量,也方便后续的维护,前端利用了ES6模块化的优势,构建了包含单个文献的Ref组件。降低了代码量和以后维护的工作量。

后端工作情况

Tokenization分词:WordPiece算法

WordPiece算法是如何构建词表的呢?

  1. 获得足够大的语料库。
  2. 定义所需的子词词汇量。
  3. 将单词拆分为字符序列。
  4. 用文本中的所有字符初始化词汇表。
  5. 根据词汇建立语言模型。
  6. 通过将当前词汇表中的两个单元组合以将词汇表增加一个来生成新的子词单元。 从所有可能性中选择新的子词单位,这会在添加到模型时最大程度地增加训练数据的可能性。

gRPC

  1. gRPC vs. Restful API
  2. 四类服务方法
    单项RPC、服务端流式 RPC、客户端流式 RPC、双向流式 RPC

Protobuf

  1. 安装
  2. 使用protoc生成代码
  3. protobuf语法

python端工作情况

训练部分

train代码
定义了一大波参数,我们顺次标注一下

  1. roc_datas, prc_datas:用来存放画图的roc和pr数据
  2. repres_list, label_list:用来存放模型得倒的特征提取和标签列表
  3. train_seq, test_seq:测试的sequence和测试的sequence
  4. train_label, test_label:训练集的label和测试集的label
  5. pos_list, neg_list:存放模型预测的正负样本的置信度
  6. best_performance:存放模型最好的表现的数组
  7. data_statistic:数据统计的函数统计这几个train pos, train neg, test pos, test neg的数量
  8. time_use:每个模型训练的耗时记录
  9. step_log_interval:用来画epochlog的step的横坐标
  10. train_metric_record:用来画epochlog的其一纵坐标准确度
  11. train_loss_record:用来画epochlog的其一纵坐标损失值(loss)

传统特征部分

入口文件
首先对相关的feature进行定义,并留存数组用来选择,定义保留ROCdatas,ROCdatas的数组,然后调用util_file.load_fasta来加载数据集。
再根据传入的参数对选择碱基分析还是protein的分析做出判断
接着传入gen函数生成相应的ROC和PR数据来保存,然后返回给主函数供画图使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值