- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 关于评估标准的理解(样本不平衡,准确率,召回率,ROC曲线等)
今天在分析数据的时候遇到一个样本数据不平衡的问题,以前在学习机器学习的时候有学到样本数据不平衡的原因和解决方法,不过因为那时候并不在意,觉得数据多得是嘛,不平横就随机训练和丢弃一些就好了,根本没仔细考虑到数据量小的情况。有时候数据量呈现8比2的比例,也就是正样本与负样本的数量比为8:2,这时候在做机器学习就需要考虑如何合理的训练与分配数据了,值得一提的是,样本不平衡的情况十分常见。不过样本不平...
2018-12-18 16:42:20 9509 1
原创 相似URL识别-提高python爬虫效率
0x00 介绍本文讲述的爬虫功能是爬取某个站点中的所有url,所以和网页实质内容无关。当我们在写爬虫的时候,我们会发现一个普遍事实: 有些url长得很像,比如'http://example.com/index.php?id=1', 'http://example.com/index.php?id=2'。其实这两个url或者网页几乎是一回事。只是查询的页面内容不一样而已。如果是一般的爬虫程序,...
2018-12-17 21:45:59 1406
原创 关于协方差与相关系数
今天突然看到协方差这个概念,又熟悉又陌生,只是朦朦胧胧知道这个可以反映出两个随机变量之间的相关性,但是对其内在原理不理解,不知道协方差需要随机变量满足什么形式后才可以用协方差计算,或许说,怎么将协方差应用于数据上,并且得到相应的分析结果。经过我一通百度,终于有点明白协方差是说什么意思了,感觉很久没有理解过数学了,所以很想分享一下这次的理解。假如有两个随机变量 X,Y ,且X的数学期望是E(X)...
2018-12-17 21:23:49 3082
最快DNS自动选择器,快速选择目前网络情况最好的DNS服务器,并且自动设置网络的DNS
2024-01-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人