数据科学
文章平均质量分 65
Einstellung
这个作者很懒,什么都没留下…
展开
-
标准预处理
不同特征的取值范围千差万别,常见的解决方法是对不同的特征进行规范化,使它们的特征值落在相同的值域或从属于某几个确定的类别,比如小、中和大。一旦解决这个问题,不同的特征类型对算法的影响将大大降低,分类正确率就能有大幅提升。 选择具区分度的特征、创建新特征等都属于预处理的范畴。scikit-learn的预处理工具叫作转换器(Transformer),它接受原始数据集,返回转换后的数据集。除了处理数...原创 2018-07-16 10:41:55 · 436 阅读 · 0 评论 -
Xgboost实现GPU加速
环境配置首先最好你有帕斯卡构架的GPU,如果没有的话,最好还是不要搞GPU加速了。首先安装CUDA第二步:下载xgboost源码: https://github.com/dmlc/xgboost第三步:从http://ssl.picnet.com.au/xgboost/中下载支持GPU版已编译好的DLL文件第四步:将xgboost.dll复制到xgboost-m...原创 2018-08-13 22:34:31 · 7713 阅读 · 2 评论 -
判断电离层是否存在自由电子
数据集介绍用到的数据集叫作电离层(Ionosphere),这些数据是由高频天线收集的。这些天线的目 的是侦测在电离层和高层大气中存不存在由自由电子组成的特殊结构。如果一条数据能给出特殊 结构存在的证据,这条数据就属于好的那一类(在数据集中用“g”表示),否则就是坏的(用“b” 表示)。我们要做的就是建立分类器,自动判断这些数据的好坏。 这个数据可以从http://archive.ics.u...原创 2018-07-15 21:08:45 · 711 阅读 · 0 评论 -
曼哈顿距离和余弦距离
曼哈顿距离图中红线代表曼哈顿距离,绿色代表欧氏距离,也就是直线距离,而蓝色和黄色代表等价的曼哈顿距离。曼哈顿距离又称为出租车距离,因为这是出租车在街道行驶所走的实际距离的长度。余弦距离余弦距离指的是特征向量夹角的余弦值。计算时只需要计算特征向量夹角的余弦值就好了,忽略特征向量的长度。欧氏距离、曼哈顿距离和余弦距离的比较如果你的数据集有很多特征,但是如果任意一对个体之...原创 2018-07-15 10:29:38 · 1383 阅读 · 0 评论 -
用OneR算法对Iris植物数据进行分类
数据集介绍Iris是植物分类数据集,这个数据集一共有150条植物数据。每条数据都 给出了四个特征:sepal length、sepal width、petal length、petal width(分别表示萼片和花瓣的长与宽),单位均为cm。 该数据集共有三种类别:Iris Setosa(山鸢尾)、Iris Versicolour(变色鸢尾)和Iris Virginica(维吉尼亚鸢尾)。我...原创 2018-07-14 23:26:39 · 1189 阅读 · 0 评论 -
用转换器抽取特征
特征抽取特征抽取是数据挖掘任务为重要的一个环节,一般而言,它对终结果的影响要高过数据挖掘算法本身。不幸的是,关于怎样选取好的特征,还没有严格、快捷的规则可循,其实这也是数据挖掘科学更像是一门艺术的所在。创建好的规则离不开直觉,还需要专业领域知识和数据挖 掘经验,光有这些还不够,还得不停地尝试、摸索,在试错中前进,有时多少还要靠点运气。 不是所有的数据集都是用特征来表示的。数据集可以是一位作...原创 2018-07-20 09:17:07 · 756 阅读 · 0 评论 -
为作品找作者
作者分析的应用场景作者归属(authorship attribution)是作者分析的一个细分领域,研究目标是从一组可能的作者中找到文档真正的主人。这是一种典型的分类任务。作者分析任务一般采用标准的数据挖掘方法,比如交叉检验、特征抽取和分类算法等。作者分析问题衍生出很多更细的问题,主要有以下几个:作者画像: 根据作品界定作者的年龄、性别或其他特性。例如,通过观察一个人讲英语的方式,判...原创 2018-07-24 22:28:30 · 1395 阅读 · 1 评论 -
用亲和性分析方法推荐电影
亲和性分析面临的问题亲和性分析比分类更具探索性,因为通常我们无法拿到像在很多分类任务中所用的那样完整 的数据集。例如,在电影推荐任务中,我们拿到的是不同用户对不同电影的评价。但是,每个用 户不可能评价过所有电影,这就给亲和性分析带来一个不容忽视的大难题。如果用户没有评价过一部电影,是因为他们不喜欢这部电影(据此就不推荐给他们),还是因为他们出于别的原因还没有评价? 思考数据集中类似潜在问题...原创 2018-07-18 09:34:50 · 4593 阅读 · 1 评论 -
理解F1值
选择评价指标时,了解它们的适用范围很重要。正确率应用范围很广,理解起来比较容易, 计算起来也方便。但是,造假很容易。换句话说,你很容易就能实现一个正确率很高,但实际用处不大的算法。 例如,对于垃圾邮件过滤器而言,其所处理的邮件很可能80%以上都是垃圾邮件,倘若一个过滤器把所有邮件都标为垃圾邮件,它没有实际应用价值,但是正确率却高达80%! 为了解决这个问题,我们使用另一个为常用的评价指标F...原创 2018-07-23 20:06:30 · 23948 阅读 · 5 评论 -
用数据方法进行简单商品推荐
背景介绍当顾客在购买一件商品时,商家可以趁机了解他们还想买什么,以便把多数顾客愿意同时购买的商品放到一起销售以提升销售额。当商家收集到足够多的数据时,就可以对其进行亲和性分析,以确定哪些商品适合放在一起出售。 什么是亲和性呢,简单的说就是物品之间的相似性或者说是相关性。比如说,一个去商场购物,买了苹果的同时也买了香蕉,如果又买苹果又买香蕉的人比较多,那么我们把苹果和香蕉摆放在一起来销售,往...原创 2018-07-12 11:31:50 · 1066 阅读 · 0 评论 -
创建自己的特征和转换器
创建新特征的数据有时候,仅仅选择已有特征是不够的。我们需要在已有特征基础上创建新的特征。一个效果好的新创建的特征,可以很有效的降低冗余信息,提高特征之间的相关性。对于算法准确率的提高有很好的促进作用。接下来,加载一个新的数据集,从http://archive.ics.uci.edu/ml/datasets/Internet+Advertisements下载Advertisements(...原创 2018-07-23 16:53:05 · 495 阅读 · 0 评论 -
谷歌云盘Colaboratory如何载入文件
参考资料: Colaboratory 指定Google Drive文件夹原创 2018-07-11 20:28:01 · 16877 阅读 · 7 评论 -
创建流水线
随着实验的增加,操作的复杂程度也在提高。我们可能需要切分数据集,对特征进行二值化 处理,以特征或数据集中的个体为基础规范化数据,除此之外还可能需要其他各种操作。 当操作变得越来越复杂的时候,我们很难追踪到数据和代码的运行情况,如果数据处理顺序错了,可能也不容易得到我们想要的结果。这时候,引入流水线来规范就很有必要了。from sklearn.pipeline import Pipeline...原创 2018-07-16 11:01:34 · 433 阅读 · 0 评论 -
如何生成HDF5文件
在使用深度学习学习图像文件的时候,如果图片文件很多,比如大几千张,或者几万张。如果将一个图片再接一个图片导入到内存中,会极大地拖慢深度学习算法运行速度。我们都有过这样的经验,如果将一个文件夹里面有几万个文件的文件夹进行复制,其速度要比将文件夹打包之后复制速度要慢很多。为了不让IO运算(将硬件中的图片一个一个导入到内存中)成为深度学习训练速度无法提高的一个瓶颈,这里来介绍一种方法,就是将很多的文件...原创 2019-08-25 11:48:45 · 4243 阅读 · 0 评论