机器学习
追风人丶丶
这个作者很懒,什么都没留下…
展开
-
对Bert的理解
这里写自定义目录标题句子情感分类每个预测值是怎么计算出来的?下面讨论代码的实现:下面重点Mode#1Model#2 Train/Test Split最近看了机器之心的对bert源码的解读,做如下笔记:句子情感分类首先是整个流程,主要分为两部分:对句子进行处理,我理解的类似于embedding,类似于Word2Vec。外接模型,后续可以加Logistics模型,LSTM模型等。首先对...原创 2019-12-28 17:01:09 · 1213 阅读 · 4 评论 -
如何理解机器学习中的准确率和召回率?
如何理解机器学习中的准确率和召回率?作者:祁鑫链接:https://www.zhihu.com/question/19645541/answer/39732647来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统...原创 2019-04-30 23:06:42 · 650 阅读 · 1 评论 -
关于对机器学习中稀疏矩阵的认识
稀疏矩阵:0 多稠密矩阵:0 少,非0 多稀疏矩阵如果矩阵中的许多系数都为零,那么该矩阵就是稀疏的。对稀疏现象有兴趣是因为它的开发可以带来巨大的计算节省,并且在许多大的实践中都会出现矩阵稀疏的问题。矩阵的稀疏性可以用一个得分来量化,也就是矩阵中零值的个数除以矩阵中元素的总个数。sparsity = count zero elements / total elements稀疏...原创 2019-05-19 09:02:14 · 1579 阅读 · 0 评论 -
使用 TF-IDF 算法将文本向量化
使用 TF-IDF 算法将文本向量化理解 TF-IDF 算法TF-IDF 算法TF-IDF 算法通过分配权重来反映每个词的重要程度,根据权重对一篇文章中的所有词语从高到低进行排序,权重越高说明重要性越高,排在前几位的词就可以作为这篇文章的关键词。所以 TF-IDF 算法可以用来提取关键词。TF-IDF 全称为 term frequency–inverse document frequenc...原创 2019-06-08 22:02:21 · 4465 阅读 · 1 评论 -
sklearn 学习笔记
sklearn.feature_extraction.text.TfidfVectorizer官方文档:https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.htmlTfidfVectorizer(input=’content’, encoding=’u...原创 2019-07-20 13:16:41 · 112 阅读 · 0 评论 -
决策树笔记
信息熵公式 其中p(xi)代表随机事件x为xi的概率。信息量是对信息的度量,就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢?多少信息用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大,如湖南产生的地震了;越大概率的事情发生了产生的信息...原创 2019-07-21 11:22:30 · 78 阅读 · 0 评论