FontTian的专栏

数据科学与人工智能

排序:
默认
按更新时间
按访问量

Hyperopt中文文档导读

在2017年的圣诞节前,我翻译了有关HyperOpt的中文文档,这也时填补了空白,以此作为献给所有中国程序员,以及所有其他机器学习相关行业人员的圣诞礼物。圣诞快乐,各位。HyperOpt中文文档导读翻译的文档已经发布于github,请在我的项目Hyperopt_CN中的wiki查看相应文档.Hyp...

2017-12-23 15:56:30

阅读数:868

评论数:0

关于我的CSDN博客的一些要说的话

写博客的目的 其实最早开始写博客就是为了把自己的学习笔记和错误日志保存到线上,顺便可以拿拿赚点C币,换换资源分之类的 后来慢慢感觉其实有些笔记可以写得更好一些,这样既有利于我个人的使用,或许还能帮助到其他人呢?也正是第一次有了这个想法,然后慢慢的开始筹划写博客,再然后也筹划过个人的博客网站.最后慢...

2017-07-22 20:35:28

阅读数:947

评论数:0

R语言简介与案例

R语言是一门统计学家的计算机语言,被广泛应用于数据分析,统计与机器学习这几个领域,随着时间的发展,它的功能愈加强大.本文将介绍R语言的基本知识:包括使用内置数学方法,自定义函数,安装与调用高级算法.并配有相关代码.

2018-06-22 09:46:13

阅读数:62

评论数:0

深入浅出统计学 第二三章 量度

量度 两类量度: (1) 集中趋势的量度—>平均值,中位数,众数 (2) 分散性与变异性的亮度—>全距(极值),四分位数(扩展:箱型图),方差与标准差,标准分 获取数据 import pandas as pd i...

2018-06-07 13:37:28

阅读数:193

评论数:0

Python实现 灰色关联分析 与结果可视化

之前在比赛的时候需要用Python实现灰色关联分析,从网上搜了下只有实现两个列之间的,于是我把它改写成了直接想Pandas中的计算工具直接计算person系数那样的形式,可以对整个矩阵进行运算,并给出了可视化效果,效果请见实现 ## 灰色关联分析法 对于两个系统之间的因素,其随时间或不同对象而...

2018-06-07 13:21:45

阅读数:261

评论数:0

深入浅出统计学 第一章 数据的可视化

序言 在深入浅出统计学的第一张中一共出现了4类图像: 1. 比较基本比例—>饼图 2. 比较数值的高低条形图(基本条形图,堆积条形图,分段条形图) 3. 连续数据的对比(等距直方图—>频数,非等距直方图—&a...

2018-06-04 21:38:16

阅读数:107

评论数:0

Ubuntu16.04 安装R与RStudio

安装R语言 我们使用apt的方式进行安装,步骤如下: 首先需要在/etc/apt/sources.list文件的末尾添加 deb https://<my.favorite.cran.mirror>/bin/linux/ubuntu ...

2018-05-22 23:38:40

阅读数:94

评论数:0

人才吸引力评价模型研究

额外声明本文章是2018年中国数学建模大赛山科大校内选拔时所作,因为本人去年已经拿过奖了,所以此处写的很简单.以下内容仅限参考如有错误之处,望指教.谢谢.代码已经开源.地址见FontTian的Github摘要本文基于地区人才吸引力要素设计调查问券,并添加工作年限与工作类型。然后通过包裹式特征过滤与...

2018-05-22 22:08:01

阅读数:6894

评论数:0

Ubuntu下安装依赖的几个解决方案

在Ubuntu的使用中想必大家经常遇见这句话:“E: 无法修正错误,因为您要求某些软件包保持现状,就是它们破坏了软件包间的依赖关系” 对于这个问题,网上有很多解决方案,但是大多不靠谱.以往我一般都是手动处理,如果是一个软件的版本问题,直接安装指定版本.比如: 在显示liblapack3...

2018-05-22 21:43:49

阅读数:135

评论数:0

Scrapy八小时快速入门第一小时:安装,创建与执行我们的Scrapy爬虫

安装 安装Scrapy非常简单,只需要在终端输入pip install scrapy,然后执行命令即可,如果不行,那么一般是底层库的问题,可以使用codna install --upgrade scrapy代替之前的命令,虽然anconda的库更新要慢一些,不过一般没什么问题 创建项目 ...

2018-02-07 18:38:00

阅读数:350

评论数:0

快速认识网络爬虫与Scrapy网络爬虫框架

本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分 问:什么是网络爬虫 答:就是从网上下载数据的一个程序,只不过这个程序下载的东西不是某某网站直接提供给我们的,我们直接从别人的网页上拿来的. 问:为什么是我们自己拿?...

2018-02-04 22:17:59

阅读数:241

评论数:0

Sklearn中的CV与KFold详解

关于交叉验证,我在之前的文章中已经进行了简单的介绍,而现在我们则通过几个更加详尽的例子.详细的介绍 CV %matplotlib inline import numpy as np from sklearn.model_selection import train_test_split...

2018-01-31 17:35:42

阅读数:1695

评论数:0

数据集划分问题

留出法(hold-out) 使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据 缺点二:容易过拟合,且矫正...

2018-01-31 17:07:55

阅读数:690

评论数:0

Gradient Tree Boosting:梯度提升树详解

理论 数学推导请参考《统计机器学习》-李航,或者参考sklearn的官方文档,下面是我的部分笔记,也可以作为参考 优缺点 GBRT是对任意的可微损失函数的提升算法的泛化,即可回归亦可分(sai)类(ting)。 优点: 1. 对混合数据的的天然处理能力 2. 强大的预测...

2018-01-26 22:02:09

阅读数:949

评论数:0

集成算法中的Bagging

Bagging meta-estimator 基本描述 在集成算法中,bagging 方法会在原始训练集的随机子集上构建一类黑盒估计器的多个实例,然后把这些估计器的预测结果结合起来形成最终的预测结果。 该方法通过在构建模型的过程中引入随机性,来减少基估计器的方差(例如,决策树)。 在多数情...

2018-01-16 14:16:10

阅读数:801

评论数:0

RandomForest:随机森林

随机森林:RF 随机森林是一种一决策树为基学习器的Bagging算法,但是不同之处在于RF决策树的训练过程中还加入了随机属性选择(特征上的子采样) 传统的决策树在选择划分的属性时,会选择最优属性 RF 首先,从该节点的属性中损及选择出K个属性组成一个随机子集(类也就是Bagging中的Ra...

2018-01-16 14:07:02

阅读数:856

评论数:0

Feature selection using SelectFromModel

SelectFromModel sklearn在Feature selection模块中内置了一个SelectFromModel,该模型可以通过Model本身给出的指标对特征进行选择,其作用与其名字高度一致,select (feature) from model。 SelectFromMode...

2018-01-15 15:17:55

阅读数:802

评论数:0

Hyperopt TypeError: 'generator' object is not subscriptable

BUG 最近复用以前的代码,结果发现了一个bug,bug如下: File "/home/michael/work/oanda/src/oanda/trend_prediction/find_optimal_model.py", line 124,...

2018-01-09 14:34:16

阅读数:1146

评论数:6

递归式特征消除:Recursive feature elimination

简述 特征的选取方式一共有三种,在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法,如下: recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获...

2018-01-08 16:57:31

阅读数:2694

评论数:0

单变量特征选择:Univariate feature selection

sklearn中的单变量特征选择 单变量的特征选择是通过基于一些单变量的统计度量方法来选择最好的特征,比如卡方检测等。Scikit-learn 将单变量特征选择的学习器作为实现了 transform方法的对象: sklearn中实现的方法有: SelectKBest 保留评分最高的 K 个...

2018-01-07 20:56:44

阅读数:717

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭