对NLP问题文本分类

最近在开始投入新的工作,对问题进行分类,这里涉及几个点

1. 数据问题

    如何对技术问题进行标签,首先是数据,这是所有工作的起点,我们可能会对语句的实体进行抽取,但这是非常理想的情况,举个例子

    a. 大佬救救我?
        我需要一个系统完成论文,重金鸣谢

    b. 今天我们谈谈如何实现算法xxxxx?
        我写了一个
        //省略1万字的代码
        问题出错了

    我们如果从技术上,就需要提取一些实体,如问题a ,标题就不能去判断类别了,在下面内容如果从人的角度或者从机器角度,问题a能找到的就是论文,可是我们传统的技术类别是没有的,从技术角度只能标注其他,这是没办法判别。而问题b,我们需要知道的是什么代码?所以内容打标签就会有一个局限,更关键的是能认到代码。基本上这里就是一个结构化问题了。这些东西需要时间去处理,包括词库,还有知识库都需要去做,但基础数据之前就没有太多优质的,这也是做人工智能项目的通病
 

 

2. 技术选型上

    我一直考虑中文,走一个捷径Paddle Paddle ,但支持文档真的很少,导致我花费了时间,但也找不到解决方法,所以这些就需要学习成本了

3. 可行性

    这是一个项目,不可能短期能完成,而项目组希望看到成效,需要定好步骤,所以这些都是需要把握的

 

这个文章我会持续更新,希望每周都会有突破,而且把项目开源,给大家一个路子

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值