自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 资源 (5)
  • 问答 (13)
  • 收藏
  • 关注

原创 IDEA import java.nio.file.Files包报错

IDEA import java.nio.file.Files包报错我报错的原因:解决方案:

2021-07-17 15:11:11 764 1

转载 spark RDD collect()

collect的作用 Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。已知的弊端 首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次Shuffle,而一次Shuffle调度一次stage,然而一...

2018-08-24 17:01:05 27830 1

原创 Hive报错"Expression not in GROUP BY key"

select user_id, distance from table a group by user_id这是由于根据user_id做group by时,每个user_id存在多个distance,考虑只保留一个distance或使用collect_set函数。select user_id, min(distance) from table a...

2018-08-24 16:33:31 3843

原创 hive中的concat,concat_ws,collect_set用法

需求:对用户的信息进行分析,相同用户的地址信息按照不同类型分别展示出来,每个用户一行。table1: user_id location location_type 123 w2ny6s ...

2018-08-24 16:12:36 21063

原创 python-xgboost 异常AttributeError: 'DMatrix' object has no attribute 'handle'

xgboost异常AttributeError: ‘DMatrix’ object has no attribute ‘handle’ 提示的错误是DataFrame.dtypes for data must be int, float or bool.通过分析训练样本的类型发现,存在一列的数据是object类型,需要将其转换为int/float/bool 类型。可以通过pd.to_nu...

2018-08-14 11:09:11 4768

转载 ks:能定阈值的评价指标

ks:能定阈值的评价指标

2018-08-13 15:30:45 934

转载 pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)

pandas中Dataframe的查询方法([], loc, iloc, at, iat, ix)

2018-08-13 11:56:34 407

转载 数据挖掘模型中的IV和WOE详解

数据挖掘模型中的IV和WOE详解

2018-08-02 16:42:45 1064

原创 spark运行原理

1、YARN架构设计详解 2、Spark on Yarn的运行原理 3、详细探究Spark的shuffle实现 4、Spark基本工作流程及YARN cluster模式原理 5、Spark学习笔记1:Application,Driver,Job,Task,Stage理解...

2018-07-22 18:25:30 510

转载 over partition by与group by 的区别

这里首先给出一个简单的表,表ss结构如下: D号 工资 部门 userid salary dept 1 2000 1 2 1000 1 3 500 2 4 1000 2 现在需要查询出部门的最低工资的userid 号 有一个高人给出了一种答案: SELECT MI...

2018-07-19 10:58:17 388

转载 scala中下划线的使用

1、用于替换java的等价语法 1.1 导入通配符 *在scala中是合法的方法名,所以导入包时使用_代替//Javaimport java.util.*//scalaimport java.util._1.2 类成员默认值 Java中类成员可以不赋初始值,编译器会自动帮你设置一个合适的初始值class test{ String s;}而在scala中必须...

2018-07-16 20:02:02 692

转载 Hive 简单语法

Hive 快速入门

2018-07-05 15:14:12 262

转载 SQL中Group By的使用

SQL中Group By的使用

2018-07-05 11:43:25 215

转载 MapReduce过程详解(基于hadoop2.x架构)

MapReduce过程详解(基于hadoop2.x架构)

2018-07-05 11:42:04 431

转载 XGBoost 与 Boosted Tree

xgboost与GDBT

2017-08-07 17:13:43 718

转载 CART分类与回归树与GBDT(Gradient Boost Decision Tree)

CART分类与回归树与GBDT(Gradient Boost Decision Tree)

2017-08-05 21:51:17 7202

转载 机器学习常见算法总结

机器学习常见算法个人总结

2017-08-03 11:34:15 822 1

转载 极大似然估计 最大后验概率估计

经验风险最小化 结构风险最小化

2017-07-09 23:22:11 1767

转载 梯度提升树(GBDT)原理

在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT

2017-06-23 18:19:15 1002

原创 字符串匹配--KMP算法

字符串匹配算法 KMP算法

2017-03-04 23:29:22 677 1

原创 vector--resize()

std::vector::resize void resize (size_type n, value_type val = value_type());Change size Resizes the Container so that it contains n elements.If n is smaller than the current container size, the cont

2017-02-28 10:46:29 553

原创 评价分类器的性能

1、准确率–0/1损失 对于一个特定的测试点,损失或者为0或者为1,取决于预测是正确还是错误的。显然,这个值越低越好。 不足: (1)、如何评价这个量不容易,如0.2怎么样? (2)、对于类别数据不平衡的数据,如80%是类别一,20%是类别2,如果我们总 是将对象归为类别1,却也能得到0.2的平均损失。下面介绍一个克服这个问题的方法。2、

2017-02-26 12:06:45 3633

转载 先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然

先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然 总是搞混,这里总结一下常规的叫法:先验概率:事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。后验概率:事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。条件概率:一个事件发生后另一个事件发生的概率。一般的形式为

2016-12-25 17:37:14 849

转载 python2.7--字符串和编码

字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是6553

2016-12-16 20:36:44 847

转载 python中的import,reload,以及__import__

import 作用: 导入/引入一个python标准模块,其中包括.py文件、带有init.py文件的目录。 e.g:import module_name[,module1,...] from module import *|child[,child1,...]说明: 多次重复使用import语句时,不会重新加载被指定的模块,只是把对该模块的内存地址给引用到本地变量环境。 测试:a.p

2016-12-08 16:10:48 405

原创 改进的迭代尺度法(IIS)详解

改进的迭代尺度法

2016-10-20 20:10:45 5752 4

转载 最大熵学习笔记(六)优缺点分析

最大熵模型

2016-10-20 19:31:32 1544

转载 最大熵学习笔记(五)最优化算法

最大熵模型 优化算法

2016-10-20 19:28:48 802

转载 最大熵学习笔记(四)模型求解

最大熵模型

2016-10-20 19:13:58 502

转载 最大熵学习笔记(三)最大熵模型

最大熵模型

2016-10-20 16:02:51 950

转载 最大熵学习笔记(二)最大熵原理

最大熵原理

2016-10-20 15:59:14 829

转载 最大熵学习笔记(一)预备知识

最大熵模型

2016-10-20 15:57:12 665

转载 最大熵学习笔记(零)目录和引言

最大熵

2016-10-20 15:44:11 450

转载 C4.5算法

C4.5算法

2016-10-13 11:58:22 364

转载 c++--模板编译

如何组织编写模板程序 前言 常遇到询问使用模板到底是否容易的问题,我的回答是:“模板的使用是容易的,但组织编写却不容易”。看看我们几乎每天都能遇到的模板类吧,如STL, ATL, WTL, 以及Boost的模板类,都能体会到这样的滋味:接口简单,操作复杂。我在5年前开始使用模板,那时我看到了MFC的容器类。直到去年我还没有必要自己编写模板类。可是在我需要自己编写模板类时,我首先遇到的事实却是 “传

2016-09-25 23:05:11 426

原创 leetcode-349. Intersection of Two Arrays

Given two arrays, write a function to compute their intersection.Example: Given nums1 = [1, 2, 2, 1], nums2 = [2, 2], return [2].Note: Each element in the result must be unique. The result can be in

2016-09-01 10:14:49 227

原创 直方图均衡化

直方图均衡化

2016-07-14 17:15:19 5512 2

转载 Python-----PIL Image模块 show函数不能正常显示图片

PIL Image模块 show函数不能正常显示图片

2016-07-13 21:51:09 8244

转载 Python IDLE reload(sys)后print无法正常执行命令的原因

python IDLE reload(sys)后print无法正常执行命令的原因

2016-07-05 20:42:02 3949 1

原创 最短路径问题--Floyd多源最短路径算法

Dijkstra和Bellman_Ford都是从一个起点出发,计算到各顶点的距离。不过有时候需要求对所有成对定点的最短距离。引入了Floyd算法。Floyd算法考虑的是一条最短路径上的中间结点。假设图中有一个定点x,对于u到v的最短路径,该路径可能经过x,也可能不经过x。

2016-06-30 16:45:55 1469

《集体智慧编程》第四章 搜索引擎数据集

《集体智慧编程》第四章 搜索引擎数据集

2016-12-11

机器学习实战

机器学习实战

2016-03-17

神经网络与机器学习

神经网络与机器学习

2016-03-17

python写的小程序,可以从网上爬图片

python写的小程序,可以从网上爬图片

2016-02-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除