“电商评论观点挖掘” 比赛总结

**

“电商评论观点挖掘” 比赛总结

**
作者: frf
时间:2019.9.3

项目比赛 地址:
‘电商评论观点挖掘’ 比赛

框架思路

一: 序列标注部分

  1. 序列标注思路 : 采用的BIO 数据标注模式
  2. 基于BERT 或 ( Bi-Lstm + CRF) 进行 模型训练 和 预测 任务
  3. 生成后的结果合并 到 picklabel_test.txt

二: 观点 属性 分类 模型
1. 利用 标注处理工具,将提取结果 格式化
2. 根据 提取结果 , 在原文本中进行抽取 文本进行合并, 划分数据集
3. 基于BERT模型 进行 观点 和属性 模型训练,
4. 调用属性模型和观点模型进行预测

三: 数据合并,提交最终结果

  1. 调用处理工具把分类模型预测结果格式化
  2. 根据 官方提供的 需要哪些字段, 将预测出的结果 进行合并成最后的输出结果

为方便广大读者 更能清晰的 理解 整个项目的 框架, 笔者 简单的 画 个草图, ( 哈哈, 画的 不好, 请包涵哈)

一: 预测的框架图:
预测的框架图

参赛总结

第一次参加 相关 自然语言处理的比赛,总的来说 收获也比较多,也通过比赛 认识到自己的不足之处,
初赛结束后, 目前得分是 0.725, 排名是 82名, 基本进入 复赛 希望不大了, 在这里 我要感谢 xmxoxo, 他对我的帮助很大, 真心的感谢他。下面我总结在比赛中的一些 收获 还有 些 不足吧。

收获

  • 参加一个完整的项目, 把整体的流程串起来。之前基本上做项目 都是 负责其中的某一个模块, 零零散散的 , 现在 是 从项目的开始,阶段性的目标, 最后提交结果。
  • 项目中的 评估指标 有些可以变成通用的模板工具, 在下次比赛可以复用
  • 针对一个项目, 理解项目中的word 要求,以及 如何从0-1实现 其中用到的技术, 出现问题 如何思考修正, 我觉得 对我来说 是成长最大的地方
    不足之处:
  • 自己的代码功底比较弱, 很多 之前用过的 函数, 在用时, 忘记函数有哪些参数,
  • 在模型训练方面, 只采用了深度学习模型的方式, 数据集相对 文本较短, 自我觉得用机器学习算法 来测试 的话, 效果也还不错
  • 在 序列标注 后, 基于规则的 抽取 特征, 总体思路不明确, 导致 效率比较慢,

遗憾

  • 有关比赛的相关来源比较窄,
    接手项目时, 距离初赛结束还剩 一周半左右时间, 时间上相对比较仓促
  • 第一次与 前辈 合作, 在沟通合作细节之处, 自己的底蕴不够, 很多细节之处 没理解到位
  • 在模型评估时, 有一些问题, 修改后, 结果有所提高, 但 最终结果没提交上去, 原因是, 修改某一部分的代码, 需要结合 其它的来查看, 修改, 耗时比较久, 导致未提交上去。

TODO

1.虽然未进入复赛, 但 初赛中 针对特定问题做出的处理 还是很有收获, 再次在这里感谢 xmxoxo
2. 整理在这个项目中 技术上的一些细节处理 以及 自己遇到的一些问题
3. 完整梳理一遍 参赛思路 以及 实现流程, 相信对我帮助还是挺大的

最后附上代码链接,里面包含数据集,有需要的同学自行下载查看

源码地址

大家有好的思路或者需要问题 可以加群一起交流哦, 在这里插入图片描述

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值