机器学习
文章平均质量分 80
delta_hell
这个作者很懒,什么都没留下…
展开
-
fasttext源码学习(2)--模型压缩
fasttext源码学习(2)–模型压缩前言fasttext模型压缩的很明显,精度却降低不多,其网站上提供的语种识别模型,压缩前后的对比就是例证,压缩前126M,压缩后917K。太震惊了,必须学习一下。看文档介绍用到权重量化(weight quantization)和特征选择(feature selection),下面结合代码学习下。说明:文章中代码皆为简化版,为突出重点,简化了逻辑,原版代码需到官方网页下载。一 特征选择一开始以为fasttext会用到比较复杂的特征选择算法,直到看到代码才差点闪原创 2020-06-30 22:25:51 · 1168 阅读 · 0 评论 -
fasttext源码学习(1)--dictionary
fasttext源码学习(1)–dictionary前言fasttext在文本分类方面很厉害,精度高,速度快,模型小(压缩后),总之非常值得学习。花了点时间学习了下源码,本篇主要是与dictionary相关。dictionary主要存储词语和切分词及对应的id,因为fasttext能处理超大数据集,如果不使用一些方法,只是加载这些内容,内存就很容易爆掉,我们来看看有哪些关键方法。一 词语数量控制该方法在Dictionary::readFromFile中调用,截取关键部分如下:// 简化版voi原创 2020-06-23 19:47:50 · 461 阅读 · 0 评论 -
K-means学习总结
K-means学习总结前言最近在看fasttext源码,看到里面压缩用到kmeans方法,不得不说fasttext实现的比较绕,c++语言一方面,没注释一方面,代码逻辑也有一点,理解确实困难,虽然看kmeans的原理并不复杂。所以去翻了scikit-learn的kmeans源码,帮助理解消化。看的过程中发现kmeans有改进版本,本文不涉及,只关注最简单的kmeans实现。关键步骤kmeans是一种聚类方法,主要是从N个样本中分出K个簇(cluster),在每个簇中找出一个中心(centroid),原创 2020-06-20 16:08:24 · 798 阅读 · 0 评论