机器学习
happy_wealthy
这个作者很懒,什么都没留下…
展开
-
sklearn决策树相同数据集及模型参数为什么生成的模型不一样?
每次决策树分叉时,所有的特征都是随机排序的,随机种子就是random_state如果你的max_features小于你总特征数n_features,那么每个分叉必须采样,随机性很大。即使你的max_features = n_features,表现相同的分叉还是会选第一个,所以依然有随机性,sklearn的算法大多有random_state,如果需要复盘或是需要模型稳定不变必须设置。...原创 2021-06-14 00:34:33 · 1326 阅读 · 1 评论 -
windows环境变量设置
1、export PYTHONPATH=2、import syssys.path.append()原创 2021-05-20 10:43:33 · 65 阅读 · 0 评论 -
准确率accuracy、精确率precision、召回率recall、f1_score
准确率(accuracy):对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。由准确率,我们的确可以在一些场合,从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作。举个例子,google抓取 了argcv 100个页面,而它索引中共有10,000,000个页面,随机抽一个页面,分类下,这是不是argcv的页面呢?如果以accuracy来判断我的工 作,那我会把所有的页面都判断为"不是argcv的页面",因为我这样效率非常高(return false,一句话),而accu原创 2021-05-18 10:01:17 · 809 阅读 · 0 评论 -
机器学习分类
机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监督式学习下,输入数据原创 2020-10-26 10:07:00 · 83 阅读 · 0 评论