算法
iseeyounow2017
当你什么都改变不了时,只有努力的改变自己,才能更好的生活!!!
展开
-
TF-IDF算法详解
最近在做一些NLP的研究,由于也是第一次做这个东西,其实还是发现很多有意思的东西。 相信很多做过NLP的人都应该接触过提取关键词的这个功能。现在有很多可以使用的第三方工具包可以很容易的来实现这个功能,比如snowNLP,jieba等,但是我们还是要做到知其然,知其所以然,所以便有了这一篇文字的记录。 首先我们来了解一下什么是TF-IDF? 其实这个是两个词的组合,可以拆分为TF和IDF。 TF(Term Frequency,缩写为TF)也就是词频啦,即一个词在文中出现的次数,统计出来就是词频TF,显而易见,转载 2020-07-06 11:37:45 · 637 阅读 · 2 评论 -
转载!机器学习模型评估指标汇总
机器学习模型评估指标汇总 在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。 一、分类问题 1、混淆矩阵 混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。 复制代码 真正(True Positive , TP):被模型预测为正的正样本。 假正(False Positive , FP):被模型预测为正的负样本。 假负(False Negative , FN):被转载 2020-06-11 15:11:03 · 533 阅读 · 0 评论 -
几种算法的使用场景简单记录
最近邻 适用于小型数据集,是很好的基准模型,很容易解释。 线性模型 非常可靠的首选算法,适用于非常大的数据集,也适用于高维数据。 朴素贝叶斯 只适用于分类问题。比线性模型速度还快,适用于非常大的数据集和高维数据。精度通 常要低于线性模型。 决策树 速度很快,不需要数据缩放,可以可视化,很容易解释。 随机森林 几乎总是比单棵决策树的表现要好,鲁棒性很好,非常强大。不需要数据缩放。不适用 于高维稀疏数...原创 2020-02-18 13:56:56 · 347 阅读 · 0 评论