自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(10)
  • 资源 (5)
  • 收藏
  • 关注

原创 Maximal Information Coefficient (MIC)最大互信息系数详解与实现

MICMIC 即:Maximal Information Coefficient 最大互信息系数。使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度。MIC是一种优秀的数据关联性的计算方式。本篇文章将会详细介绍MIC的算法原理,优缺点以及Python的具体实现方式,并给出一个可视化方案。互信息?互信息(Mut...

2018-12-23 22:32:43 36156 60

原创 Hyperopt 入门指南

Hyperopt:是进行超参数优化的一个类库。有了它我们就可以拜托手动调参的烦恼,并且往往能够在相对较短的时间内获取原优于手动调参的最终结果。一般而言,使用hyperopt的方式的过程可以总结为:用于最小化的目标函数搜索空间存储搜索过程中所有点组合以及效果的方法要使用的搜索算法目标函数一个简单的例子这里是一个简单的例子,用来展示函数问题from hyperopt import...

2018-12-19 16:30:27 10816 9

原创 Hive 快速上手

Hive 快速上手本文旨在快速学习或者回顾hive常用知识,阅读本文档需要二十分钟,完成后你将上手hive。

2018-12-19 09:46:22 656

原创 Lightgbm with Hyperopt

如何使用hyperopt对Lightgbm进行自动调参之前的教程以及介绍过如何使用hyperopt对xgboost进行调参,并且已经说明了,该代码模板可以十分轻松的转移到lightgbm,或者catboost上。而本篇教程就是对原模板的一次歉意,前半部分为教程-如何使用hyperopt对xgboost进行自动调参的迁移,后半部分是对在Hyperopt框架下使用XGboost与交叉验证的迁移。关...

2018-12-18 12:49:39 3843 14

原创 在Python中使用lightgbm

前言-lightgbm是什么?LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的, 装逼的, 它具有以下优势:速度和内存使用的优化减少分割增益的计算量通过直方图的相减来进行进一步的加速减少内存的使用 减少并行学习的通信代价稀疏优化准确率的优化Leaf-wise (Best-first) 的决策树生长策略类别特征值的...

2018-12-17 15:22:10 10161

原创 在Python中使用XGBoost

本文原是xgboost的官方文档教程,但是鉴于其中部分内容叙述不清,部分内容也确实存在一定的问题,所以本人重写了该部分。数据请前往Github此处下载前置代码引用类库,添加需要的函数import numpy as npfrom sklearn.model_selection import train_test_splitimport xgboost as xgbimport panda...

2018-12-17 11:22:21 5358 1

原创 在Hyperopt框架下使用XGboost与交叉验证

Xgboost中内置了交叉验证,如果我们需要在Hyperopt中使用交叉验证的话,只需要直接调用即可。前边我们依旧采用第一篇教程使用过的代码。如果你已经看过前一篇文章,那么我建议你直接跳到交叉验证部分。

2018-12-17 10:33:47 3104 5

原创 如何使用hyperopt对xgboost进行自动调参

本教程重点在于传授如何使用Hyperopt对xgboost进行自动调参。但是这份代码也是我一直使用的代码模板之一,所以在其他数据集上套用该模板也是十分容易的。同时因为xgboost,lightgbm,catboost。三个类库调用方法都比较一致,所以在本部分结束之后,我们有理由相信,你将会学会在这三个类库上使用hyperopt。除此之外要额外说明的是,本文并不涉及交叉验证的问题,交叉验证请查看其...

2018-12-17 10:26:17 6341 17

原创 Anconda下的R语言

为什么要使用Anconda对于从事数据科学有关内容的人而言,R语言几乎是不得不接触的内容。想要使用R语言,直接在电脑中安装或许是个不错的选择。但是既然我们有Anconda,那么从Anconda入手R语言或许是一个更好的选择。个人认为这样做有如下好处:更方便,减少了安装步骤(ubuntu18.04 下snap安装其实也很方便的,不过显然Anconda是更加通用的解决方案)更好的和jupyt...

2018-12-12 16:50:44 3541

原创 ExecutableNotFound: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on yo

问题发生在使用xgboost自带功能绘图的时候出现了问题ExecutableNotFound: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on your systems' PATH寻找原因原因:graphviz本身是一个软件,需要额外下载,并将其bin加入环境变量之中。解决下载...

2018-12-03 14:54:35 10729 2

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除