潮生明月-CSDN博客

原创 IDEA import java.nio.file.Files包报错

IDEA import java.nio.file.Files包报错我报错的原因：解决方案：

2021-07-17 15:11:11 790 1

转载 spark RDD collect()

collect的作用 Spark内有collect方法，是Action操作里边的一个算子，这个方法可以将RDD类型的数据转化为数组，同时会从远程集群是拉取数据到driver端。已知的弊端首先，collect是Action里边的，根据RDD的惰性机制，真正的计算发生在RDD的Action操作。那么，一次collect就会导致一次Shuffle，而一次Shuffle调度一次stage，然而一...

2018-08-24 17:01:05 27996 1

原创 Hive报错"Expression not in GROUP BY key"

select user_id, distance from table a group by user_id这是由于根据user_id做group by时，每个user_id存在多个distance，考虑只保留一个distance或使用collect_set函数。select user_id, min(distance) from table a...

2018-08-24 16:33:31 3876

原创 hive中的concat，concat_ws，collect_set用法

需求：对用户的信息进行分析，相同用户的地址信息按照不同类型分别展示出来，每个用户一行。table1: user_id location location_type 123 w2ny6s ...

2018-08-24 16:12:36 21623

原创 python-xgboost 异常AttributeError: 'DMatrix' object has no attribute 'handle'

xgboost异常AttributeError: ‘DMatrix’ object has no attribute ‘handle’ 提示的错误是DataFrame.dtypes for data must be int, float or bool.通过分析训练样本的类型发现，存在一列的数据是object类型，需要将其转换为int/float/bool 类型。可以通过pd.to_nu...

2018-08-14 11:09:11 4851

转载 pandas中Dataframe的查询方法（[], loc, iloc, at, iat, ix）

pandas中Dataframe的查询方法（[], loc, iloc, at, iat, ix）

2018-08-13 11:56:34 419

转载数据挖掘模型中的IV和WOE详解

数据挖掘模型中的IV和WOE详解

2018-08-02 16:42:45 1077

原创 spark运行原理

1、YARN架构设计详解 2、Spark on Yarn的运行原理 3、详细探究Spark的shuffle实现 4、Spark基本工作流程及YARN cluster模式原理 5、Spark学习笔记1：Application，Driver，Job，Task，Stage理解...

2018-07-22 18:25:30 514

转载 over partition by与group by 的区别

这里首先给出一个简单的表，表ss结构如下： D号工资部门 userid salary dept 1 2000 1 2 1000 1 3 500 2 4 1000 2 现在需要查询出部门的最低工资的userid 号有一个高人给出了一种答案： SELECT MI...

2018-07-19 10:58:17 398

转载 scala中下划线的使用

1、用于替换java的等价语法 1.1 导入通配符 *在scala中是合法的方法名，所以导入包时使用_代替//Javaimport java.util.*//scalaimport java.util._1.2 类成员默认值 Java中类成员可以不赋初始值，编译器会自动帮你设置一个合适的初始值class test{ String s;}而在scala中必须...

2018-07-16 20:02:02 698

转载 MapReduce过程详解(基于hadoop2.x架构)

MapReduce过程详解(基于hadoop2.x架构)

2018-07-05 11:42:04 436

转载 CART分类与回归树与GBDT(Gradient Boost Decision Tree)

CART分类与回归树与GBDT(Gradient Boost Decision Tree)

2017-08-05 21:51:17 7230

在集成学习之Adaboost算法原理小结中，我们对Boosting家族的Adaboost算法做了总结，本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称，有GBT（Gradient Boosting Tree）, GTB（Gradient Tree Boosting ）， GBRT

2017-06-23 18:19:15 1008

原创字符串匹配--KMP算法

字符串匹配算法 KMP算法

2017-03-04 23:29:22 683 1

原创 vector--resize()

std::vector::resize void resize (size_type n, value_type val = value_type());Change size Resizes the Container so that it contains n elements.If n is smaller than the current container size, the cont

2017-02-28 10:46:29 567

原创评价分类器的性能

1、准确率–0/1损失对于一个特定的测试点，损失或者为0或者为1，取决于预测是正确还是错误的。显然，这个值越低越好。不足: （1）、如何评价这个量不容易，如0.2怎么样？（2）、对于类别数据不平衡的数据，如80%是类别一，20%是类别2，如果我们总是将对象归为类别1，却也能得到0.2的平均损失。下面介绍一个克服这个问题的方法。2、

2017-02-26 12:06:45 3658

转载先验概率，后验概率，似然概率，条件概率，贝叶斯，最大似然

先验概率，后验概率，似然概率，条件概率，贝叶斯，最大似然总是搞混，这里总结一下常规的叫法：先验概率：事件发生前的预判概率。可以是基于历史数据的统计，可以由背景常识得出，也可以是人的主观观点给出。一般都是单独事件概率，如P(x),P(y)。后验概率：事件发生后求的反向条件概率；或者说，基于先验概率求得的反向条件概率。概率形式与条件概率相同。条件概率：一个事件发生后另一个事件发生的概率。一般的形式为

2016-12-25 17:37:14 861

转载 python2.7--字符串和编码

字符编码我们已经讲过了，字符串也是一种数据类型，但是，字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二进制11111111=十进制255），如果要表示更大的整数，就必须用更多的字节。比如两个字节可以表示的最大整数是6553

2016-12-16 20:36:44 875

转载 python中的import，reload，以及import

import 作用：导入/引入一个python标准模块，其中包括.py文件、带有init.py文件的目录。 e.g：import module_name[,module1,...] from module import *|child[,child1,...]说明：多次重复使用import语句时，不会重新加载被指定的模块，只是把对该模块的内存地址给引用到本地变量环境。测试：a.p

2016-12-08 16:10:48 413

原创改进的迭代尺度法(IIS)详解

改进的迭代尺度法

2016-10-20 20:10:45 5791 4

转载最大熵学习笔记（六）优缺点分析

最大熵模型

2016-10-20 19:31:32 1575

转载最大熵学习笔记（五）最优化算法

最大熵模型优化算法

2016-10-20 19:28:48 833

转载最大熵学习笔记（四）模型求解

最大熵模型

2016-10-20 19:13:58 533

转载最大熵学习笔记（三）最大熵模型

最大熵模型

2016-10-20 16:02:51 982

转载最大熵学习笔记（二）最大熵原理

最大熵原理

2016-10-20 15:59:14 858

转载最大熵学习笔记（一）预备知识

最大熵模型

2016-10-20 15:57:12 697

转载最大熵学习笔记（零）目录和引言

最大熵

2016-10-20 15:44:11 484

转载 C4.5算法

C4.5算法

2016-10-13 11:58:22 370

转载 c++--模板编译

如何组织编写模板程序前言常遇到询问使用模板到底是否容易的问题，我的回答是：“模板的使用是容易的，但组织编写却不容易”。看看我们几乎每天都能遇到的模板类吧，如STL, ATL, WTL, 以及Boost的模板类，都能体会到这样的滋味：接口简单，操作复杂。我在5年前开始使用模板，那时我看到了MFC的容器类。直到去年我还没有必要自己编写模板类。可是在我需要自己编写模板类时，我首先遇到的事实却是 “传

2016-09-25 23:05:11 444

原创 leetcode-349. Intersection of Two Arrays

Given two arrays, write a function to compute their intersection.Example: Given nums1 = [1, 2, 2, 1], nums2 = [2, 2], return [2].Note: Each element in the result must be unique. The result can be in

2016-09-01 10:14:49 276