自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 【三部曲02】从GBDT到XGBoost

参考文献引用来源:1.XGBoost论文翻译和理解2.CART,回归树,GBDT,XGBoost,LightGBM一路理解过来Question1. 从论文本身表述看,xgboost有哪些工作点?【1】设计和构建高度可扩展的端到端提升树系统。【2】提出了一个理论上合理的加权分位数略图。 这个东西就是推荐分割点的时候用,能不用遍历所有的点,只用部分点就行,近似地表示,省时间。【3】引入了一...

2018-11-22 11:56:39 588 1

原创 【三部曲01】从CART到GBDT

参考文章引用来源:1.GBDT入门教程之原理、所解决的问题、应用场景讲解2.《统计学习方法》李航3.Question1. 首先明确,GBDT是做什么用的??GBDT (Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来...

2018-11-20 18:43:26 1958

原创 【处理流程02】数据预处理

参考文献:1.sklearn文档2.博客1.标准化(也称去均值和方差按比例缩放)(1)原因:数据集的标准化对scikit-learn中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么它们的表现力可能会较差。在实际情况中,我们经常忽略特征的分布形状,直接经过去均值来对某个特征进行中心化,再通过除以非常量特征(non-...

2018-11-30 12:59:57 505

原创 07数据聚合与分组运算

1.Groupy技术核心思想:拆分-应用-合并step1. pandas对象会根据你所提供的一个或多个键被拆分为多组;step2. 将一个函数应用到各个分组并产生一个新值;step3. 最后所有这些函数的执行结果会被合并到最终的结果对象中;data=pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','...

2018-11-29 22:02:08 202

原创 关于numpy、pandas、matplotlib、SciPy使用中一些问题的不定期收集整理

1.这几个组件的关系?答:这几个都是python中的库。都需要import使用。【1】其中numpy是python进行科学计算的基础包,核心关注快速高效的数据读写处理,包括和其他语言间的配合,当然它也包含众多对数组的元素级操作以及相关数学运算函数。【2】而pandas是使得python真正成为高效强大数据分析环境的重要因素,它兼具numpy高性能的数组计算功能以及Excel和SQL灵活的数据...

2018-11-29 16:31:24 326

原创 【Q001】sklearn的LabelEncoder使用问题处理

在进行数据清洗过程中,为了便于计算处理,需要对字符串类型特征进行编码操作。sklearn中的LabelEncoder方法可以支持这一操作。具体用法这里博主讲的比较清楚了,下面记录一下遇到的问题。#数据清洗操作def data_clean(op,trans): # 对操作表中的每个特征进行编码(1,2,3....) for feature in op.columns[2:]...

2018-11-27 14:56:01 3629

原创 XGBoost使用相关收集--API介绍

参考文献:1.API文档中文版2.dump_model方法介绍DMatrix+Booster+train+cv+XGBClassifier+XGBRegressor+fit+绘图API1.核心数据结构1.1DMatrixclass xgboost.DMatrix(data, label=None, missing=None, weight=None, silent=False, fea...

2018-11-26 09:18:41 1826

原创 XGBoost使用相关收集--基本流程介绍

参考文献:1.Python 软件包介绍2.Python API参考总结一下常规使用流程:dtrain = xgb.DMatrix('train.svm.txt') #数据的文本导入dtrain = xgb.DMatrix(data, label=label, missing = -999.0) #处理数据中的缺失值w = np.random.rand(5, 1)dtrain ...

2018-11-22 22:11:17 852

微博图片爬取工具

自动爬取指定用户图片,只需将微博用户的链接输入分析中即可

2017-08-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除