CRF++ Source code reading experience

最新推荐文章于 2020-07-06 17:17:10 发布

mafeichao

最新推荐文章于 2020-07-06 17:17:10 发布

阅读量2.4k

点赞数

分类专栏：其他文章标签：存储 output cache token training 多线程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mafeichao/article/details/7420315

版权

其他专栏收录该内容

4 篇文章 0 订阅

订阅专栏

读了CRF++源码，总结如下几点

1，实现的是linear-chain结构

2，感觉对样例的表示方式不如maxent灵活，可以看看suit的实现

3，TaggerImpl存储训练样例，x存储相应的output序列，result存储相应的状态序列，answer存储模型算出来的状态序列；为了实现多线程并发处理，另外存储了处理该TaggerImpl的线程thread_id_；output序列中的每一个token都对应一个feature集合，整个output序列对应了feature集合的序列，系统将所有训练样例的feature集合顺序存储在一个feature_cache中，因此在每一个TaggerImpl中保存了自己的feature序列在feature_cache中偏移量feature_id_，而这个feature_cache存在于FeatureIndex对象中。系统中所有的TaggerImpl都共享一个FeatureIndex对象；为了DP编程的方便，又包含一个Node二维数组，横轴对应output中的每一个token，纵轴代表系统状态集合中的每一个状态。

4，Node存储DP中的每一个状态，包括alpha，beta，verterbi路径前驱等。

5，与maxent不同的是在buildfeature的时候，系统会为每一个<obeservation,state>状态创建feature，这里的state包括unigram和bigram特征，而不管他们是否在训练数据中出现过。

6，所有的observation从training data中提取，然后存储在feature_cache的dict中，这个dict的结构是observation->pair<observationId,count>，最后observationId的最大值就是模型所有参数的个数。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

mafeichao CSDN认证博客专家 CSDN认证企业博客

码龄17年

148: 原创

24万+: 周排名

51万+: 总排名

27万+: 访问

: 等级

4167: 积分

53: 粉丝

16: 获赞

14: 评论

29: 收藏

私信

关注

热门文章

分类专栏

最新评论

Slider控件的使用方法
大猿猴回复 wilia: 你说的对，5年了没人理你，我看了下，你的代码没问题[code=cpp] [/code]
Slider控件的使用方法
wilia: 我想问一下，我想通过滑块给定不同的速度，我能在OnHScroll事件里面把获得的滑块位置发送给我的下位机吗？ void CStep_CtrlDlg::OnHScroll(UINT nSBCode, UINT nPos, CScrollBar* pScrollBar) { // TODO: Add your message handler code here and/or call default CSliderCtrl* pS1=(CSliderCtrl*)GetDlgItem(IDC_SLIDER1); CSliderCtrl* pS2=(CSliderCtrl*)GetDlgItem(IDC_SLIDER2); CSliderCtrl* pS3=(CSliderCtrl*)GetDlgItem(IDC_SLIDER3); CString sValue1=" "; sValue1.Format("%d",pS1->GetPos());// SetDlgItemText(IDC_EDIT1,sValue1); short m_int1=pS1->GetPos(); m_CtrlMSComm.SetOutput(COleVariant(m_int1));//通过、//MSComm控件发送数据 CDialog::OnHScroll(nSBCode, nPos, pScrollBar); } 上面的代码对吗？
CRF++ Source code reading experience
语-笑-嫣-然: 你好，我最近也在看这个crf++源代码，但是比较乱，没有头绪，，很头疼你能给些，你看的信息嘛，谢谢你，希望你能指点一下。
MBR、主引导扇区，主分区、扩展分区、逻辑分区，活动分区、引导分区、系统分区、启动分区的区别详解
mafeichao: 可以这么理解 1，系统分区与计算机的硬件架构有关（如x86等）与操作系统没有直接关,系，启动分区与操作系统有关（如windows等）。 2，系统分区负责引导操作系统，启动分区负责存储操作系统内核，被系统分区引导之后才会加载到内存。 3，计算机加电后先执行系统分区的引导程序，引导程序根据配置（或者用户在启动界面的选择windows或者linux）跳入对应的启动分区加载相应的操作系统。
关于柯西许瓦兹不等式的一些思考
qq245874184: lz，（3）式右边是不是多了个平方?

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。