FontTian的专栏

数据启示录-我们创造了数据,而数据正在改变我们

Maximal Information Coefficient (MIC)最大互信息系数详解与实现

MIC MIC 即:Maximal Information Coefficient 最大互信息系数。 使用MIC来衡量两个基因之间的关联程度,线性或非线性关系,相较于Mutual Information(MI)互信息而言有更高的准确度。MIC是一种优秀的数据关联性的计算方式。本篇文章将会详细介绍M...

2018-12-23 22:32:43

阅读数 2053

评论数 0

Hyperopt 入门指南

Hyperopt:是进行超参数优化的一个类库。有了它我们就可以拜托手动调参的烦恼,并且往往能够在相对较短的时间内获取原优于手动调参的最终结果。 一般而言,使用hyperopt的方式的过程可以总结为: 用于最小化的目标函数 搜索空间 存储搜索过程中所有点组合以及效果的方法 要使用的搜索算法 目标...

2018-12-19 16:30:27

阅读数 682

评论数 2

Hive 快速上手

Hive 快速上手 本人大数据专业学生,本文档最早是在学校上这门课时候的笔记。后来系统重装重装hive补充完善了这个笔记,今天偶然翻到,看格式应该是我当时打算发布来着,但是后来忘记了。特此补发。内容主要来自于本校老师教学时自己编写的文档和网络资料。 外部表和内部表 内部表(managed tabl...

2018-12-19 09:46:22

阅读数 152

评论数 0

Lightgbm with Hyperopt

如何使用hyperopt对Lightgbm进行自动调参 之前的教程以及介绍过如何使用hyperopt对xgboost进行调参,并且已经说明了,该代码模板可以十分轻松的转移到lightgbm,或者catboost上。而本篇教程就是对原模板的一次歉意,前半部分为教程-如何使用hyperopt对xgbo...

2018-12-18 12:49:39

阅读数 419

评论数 4

在Python中使用lightgbm

前言-lightgbm是什么? LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树. 它是分布式的, 高效的, 装逼的, 它具有以下优势: 速度和内存使用的优化 减少分割增益的计算量 通过直方图的相减来进行进一步的加速 减少内存的使用 减少并行学习的通信代价 ...

2018-12-17 15:22:10

阅读数 675

评论数 0

在Python中使用XGBoost

本文原是xgboost的官方文档教程,但是鉴于其中部分内容叙述不清,部分内容也确实存在一定的问题,所以本人重写了该部分。数据请前往Github此处下载 前置代码 引用类库,添加需要的函数 import numpy as np from sklearn.model_selection import ...

2018-12-17 11:22:21

阅读数 354

评论数 0

在Hyperopt框架下使用XGboost与交叉验证

Xgboost中内置了交叉验证,如果我们需要在Hyperopt中使用交叉验证的话,只需要直接调用即可。前边我们依旧采用第一篇教程使用过的代码。如果你已经看过前一篇文章,那么我建议你直接跳到交叉验证部分。

2018-12-17 10:33:47

阅读数 328

评论数 3

如何使用hyperopt对xgboost进行自动调参

本教程重点在于传授如何使用Hyperopt对xgboost进行自动调参。但是这份代码也是我一直使用的代码模板之一,所以在其他数据集上套用该模板也是十分容易的。 同时因为xgboost,lightgbm,catboost。三个类库调用方法都比较一致,所以在本部分结束之后,我们有理由相信,你将会学会在...

2018-12-17 10:26:17

阅读数 604

评论数 0

Anconda下的R语言

为什么要使用Anconda 对于从事数据科学有关内容的人而言,R语言几乎是不得不接触的内容。想要使用R语言,直接在电脑中安装或许是个不错的选择。但是既然我们有Anconda,那么从Anconda入手R语言或许是一个更好的选择。 个人认为这样做有如下好处: 更方便,减少了安装步骤(ubuntu18...

2018-12-12 16:50:44

阅读数 181

评论数 0

ExecutableNotFound: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on yo

问题发生 在使用xgboost自带功能绘图的时候出现了问题 ExecutableNotFound: failed to execute ['dot', '-Tsvg'], make sure the Graphviz executables are on your systems' PATH 寻...

2018-12-03 14:54:35

阅读数 1922

评论数 0

jupyter notebook 删除指定kernel

之前在jupyter notebook上安装过spark magic,现在需要卸载他,一共有四个kernel需要卸载。刚好拿来做例子,步骤十分简单。 第一步,查看所有核心 使用命令: jupyter kernelspec list 查看所有已经安装的jupyter notebook 的 kern...

2018-11-29 10:21:01

阅读数 724

评论数 0

2018 亚太数学建模大赛B题解题思路

首先说明,本人不参赛。不出售论文,也不以任何形式参与任何商业活动。请不要以任何形式私聊我,这会给我造成困扰。我之所以写这篇博客,仅仅是因为参加了太多的数学建模比赛,知道没有思路的痛苦而已,所以相以学长的身份给参赛者一点思路上的帮助。实在有什么问题可以给我留评论,我会尽快回答。如果这对你有一定的帮助...

2018-11-23 12:20:02

阅读数 9425

评论数 56

RDD浅谈

RDD概念:Resilient Distributed Datasets RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知...

2018-10-21 16:16:18

阅读数 169

评论数 0

Jupyter notebook 编写scala与spark

前置条件 spark安装完毕 Ancona安装完毕 为了在jupyter notebook上编写scala与spark需要安装Jupyter-Spark与Jupyter-Scala两个jupyter核心(kernel) 本人安装顺序为Jupyter-Spark,然后Jupyter-Scala,...

2018-10-21 16:14:04

阅读数 543

评论数 0

实例使用pyhanlp创建中文词云

使用pyhanlp创建词云 去年我曾经写过一篇文章Python + wordcloud + jieba 十分钟学会用任意中文文本生成词云(你可能觉得这和wordcloud中官方文档中的中文词云的例子代码很像,不要误会,那个也是我写的) 现在我们可以仿照之前的格式在写一份pyhanlp版本的。 对于...

2018-09-25 22:18:51

阅读数 408

评论数 0

pyhanlp 文本聚类

文本聚类 文本聚类简单点的来说就是将文本视作一个样本,在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。 我们的聚类对象不是直接的文本本身,而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。前两种都基于词袋模式,第一个是最常见的...

2018-09-25 21:27:15

阅读数 509

评论数 0

pyhanlp 文本分类与情感分析

这一次我们需要利用HanLP进行文本分类与情感分析。同时这也是pyhanlp用户指南的倒数第二篇关于接口和Python实现的文章了,再之后就是导论,使用技巧汇总和几个实例落。真是可喜可贺啊。 文本分类 在HanLP中,文本分类与情感分析都是使用一个分类器,朴素贝叶斯分类器。或许这个分类器还算是比较...

2018-09-24 20:26:45

阅读数 1683

评论数 6

pyhanlp 文本推荐,同义改写,语义距离

文本推荐 该部分的内容之所以在一起是因其底层原理相同。文本推荐,语义距离,同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码,发现功能实现原理非常之简单,就是根据文档与给定单词的距离进行打分,而这个语义距离就是从word2vec来的。熟...

2018-09-24 18:00:28

阅读数 772

评论数 0

pyhanlp 两种依存句法分类器

依存句法分析器 在HanLP中一共有两种句法分析器 依存句法分析 基于神经网络的高性能依存句法分析器 MaxEnt依存句法分析 基于神经网络的高性能依存句法分析器 HanLP中的基于神经网络的高性能依存句法分析器参考的是14年Chen&Manning的论文(A F...

2018-09-24 13:40:47

阅读数 815

评论数 0

pyhanlp 繁简转换,拼音转换与字符正则化

繁简转换 HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。 说明 HanLP能够识别简繁分歧词,比如打印机=印表機。许多简繁转换工具不能区分“以后”“皇后”中的两个“后”字...

2018-09-24 13:39:17

阅读数 330

评论数 0

提示
确定要删除当前文章?
取消 删除