自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xgboost 中的gain freq, cover

assuming that you're using xgboost to fit boosted treesfor binary classification. The importance matrix is actually a data.tableobject with the first...

2018-04-11 18:03:44

阅读数 1369

评论数 1

线性回归与逻辑回归

线性回归和逻辑回归的应用场景?答:线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序线性回归线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归...

2018-03-16 13:52:21

阅读数 120

评论数 0

隐马尔科夫模型HMM

应用 隐马尔科夫模型(HMM,Hidden Markov Model)可用标注问题,在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。 定义 隐马尔科夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态的序列,再由各状态随机生成一个观测而产生观测序列...

2018-03-13 19:21:01

阅读数 118

评论数 0

XGBoost理解

什么是XGbbostXGBoost是Extreme Gradient Boosting的简称,对应的模型就是一堆CART树,思想是将每棵树的预测值加到一起作为最终的预测值(可谓简单粗暴)。下图就是CART树和一堆CART树的示例,用来判断一个人是否会喜欢计算机游戏: 图二说明了如何用一堆CART...

2018-03-12 22:05:59

阅读数 1121

评论数 0

机器学习常见问题整理?

机器学习项目流程? 答:理解实际问题,抽象成数学模型(分类、回归、聚类)——>获取数据——>特征预处理与特征选择——>训练模型与调优——>模型诊断(过拟合、欠拟合等)——>模型融合——&...

2018-03-12 19:17:26

阅读数 472

评论数 0

决策树、Bagging、随机森林、Boosting、Adaboost、GBDT、XGBoost

决策树(Descision Tree)决策树介绍决策树基于“树”结构进行决策: - 每个“内部节点”对应于某个属性上的测试 - 每个分枝对应于该测试的一种可能结果(即属性的某个取值) - 每个叶节点对应于一个“预测结果”决策树学习的三个步骤 特征选择 决策树的生成 决策树的修剪 特征...

2018-03-09 15:49:14

阅读数 3405

评论数 0

机器学习算法之线性回归

何为线性回归 有监督学习 => 学习样本为 :D=(xi,yi)Ni=1D={(x^i,y^i)}{^N_{i=1}} 输出/预测的结果yi为连续值变量 需要学习映射ƒ : χ\chi → yy 假定输入x和输出y之间有线性相关关系 测试/预测阶段对于给定的x,预测其输出y^=f(x)=wT...

2018-01-19 22:44:51

阅读数 161

评论数 0

机器学习系列——机器学习三大类

根据机器学习的应用,一般说来,机器学习有三种算法:监督式学习(Supervised Learning, SL)监督学习是指原始数据中既有特征值也有标签值的机器学习。用输入层的数据计算输出层的值,然后对比标签值计算误差,再通过迭代找到最佳模型参数。所谓机器学习就是指对已知数据不断迭代从而找到最佳参数...

2018-01-19 15:22:24

阅读数 1861

评论数 0

用python3读csv文件,出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid con

使用pd.read_csv()读csv文件时,出现如下错误:UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd0 in position 0: invalid continuation byte出现原因:文件不是 UTF8 编码的,而系统...

2018-01-05 10:35:56

阅读数 58065

评论数 28

用spark做web日志分析

本文以服务器日志分析为例,给大家展示真实场景中,怎么用pySpark去完成大数据的处理和分析的。总述这里的应用主要包括4部分: Part 1: Apache Web服务器日志格式 Part 2: web服务器日志初步解析 Part 3: web服务器日志进一步解析和可视化 Part 4: ...

2018-01-04 15:36:02

阅读数 4209

评论数 0

Spark SQL及实例

什么是Spark SQLSpark SQL是Apache Spark用于处理结构化数据的模块。Spark SQL允许使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。Spark SQL支持多语言编程包括Java、Scala、Python和R,可以根据自身喜好进行选择。本...

2017-12-27 19:14:54

阅读数 5877

评论数 0

spark算子实战(三)

这篇文章将继续介绍spark算子之Actions算子。Actions算子 算子 说明 foreach 对RDD中的每个元素应用f函数。 saveAsTextFile 将RDD保存为文本文件。路径path可以是本地路径或HDFS地址,保存方法是对RDD成员调用toString函...

2017-12-27 11:53:18

阅读数 224

评论数 0

spark算子实战(二)

在spark算子实战中介绍了Value型Transformation算子,这里将继续介绍Key-Value型Transformation算子,Actions算子将在spark算子实战(三)中介绍。Key-Value型的Transformation算子 算子 说明 mapValues ...

2017-12-25 19:05:06

阅读数 311

评论数 0

spark算子实战

spark算子什么是算子百度百科上对算子的解释是这样的,算子是一个函数空间到函数空间上的映射O:X→X。广义的讲,对任何函数进行某一项操作都可以认为是一个算子,甚至包括求幂次,开方都可以认为是一个算子,只是有的算子我们用了一个符号来代替他所要进行的运算罢了,所以大家看到算子就不要纠结,他和f(x)...

2017-12-21 16:27:58

阅读数 223

评论数 0

在notebook中使用pyspark遇到的问题

代码:from pyspark import SparkContext sc = SparkContext() rdd.getNumPartitions() rdd.glom().collect()遇到的问题: 执行rdd.glom().collect()时出现如下错误:Py4JJavaErro...

2017-12-20 19:04:57

阅读数 3458

评论数 0

jupyter安装及配置scala、spark、pyspark内核

安装 jupyter和python本文使用Anaconda安装jupyter。 Anaconda可以看做Python的一个集成安装,安装它后就默认安装了python、IPython、集成开发环境Spyder和众多的包和模块也可参照https://docs.anaconda.com/anacond...

2017-12-20 14:55:36

阅读数 5138

评论数 1

spark分布式集群环境搭建(hadoop之上)

本文介绍的spark环境搭建是基于hadoop之上的,hadoop集群环境搭建在之前的文章中已经介绍过,请前往查看。scala安装scala下载wget https://downloads.lightbend.com/scala/2.12.4/scala-2.12.4.tgz具体的版本可去官网ht...

2017-12-19 16:00:46

阅读数 1113

评论数 0

hadoop集群环境搭建

前言本文只介绍hadoop集群环境的搭建,hadoop单机配置和hadoop伪分布配置将在hadoop安装教程中介绍环境本教程使用ubuntu16.04作为操作系统 hadoop版本为hadoop-2.8.2(可自行下载其他版本) 因本人电脑配置原因,暂选2个节点作为集群环境 节点名称 ...

2017-12-19 15:37:24

阅读数 377

评论数 1

梯度下降小结

在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度     在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出...

2017-11-08 12:34:32

阅读数 116

评论数 0

map-reduce练习

练习1:有如下的数据,其中第一列为用户ID,后面数列为他的朋友ID A B C D E F B A H C D E I C B E G A J D A B E E H A B C D G F A J G G C E F I H B J E I G B J H C F 编写map-redu...

2017-11-03 17:10:20

阅读数 175

评论数 0

提示
确定要删除当前文章?
取消 删除