Daily Scrum 11.5

我们已经确定了具体改进的方向和改进的具体实现措施。

 

具体今天的进度:

我们主要明确了重点的改进方向,还有一些细微的地方将在以后的实现过程中改进。

1.分词算法

分为两类:中文分词(中科院ICTCLAS算法)

              英文分词(朴素贝叶斯算法(与词库匹配))

2.提取关键词的算法

tf-idf算法。具体idf的计算方式还要进一步学习。

3.数据库操作完善(排除冗余数据)

4. 增加机器翻译的工作。

5.pdf的关键信息提取。

 

明天要完成的事项:

1.学习Web数据挖掘中关于朴素贝叶斯算法的部分。(杨军)

2.下载中科院ICTCLAS的分词包,进行试验,观察分词效果。(杨军,柴泽华)

3.熟悉tf-idf算法。(柴泽华)

4.研究C#操作pdf进行信息提取。(徐姗)

 

总体上来说,今天已经确定了大家今后工作的方向,这也是我们第一轮迭代力争要完成的效果。

希望大家明确自己的分工,加油!

                                                                                                   ——edited by 柴泽华

转载于:https://www.cnblogs.com/IloveSE/p/3434766.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值