LongfeiZhou-CSDN博客

原创随机森林算法梳理

随机森林算法梳理目录随机森林算法梳理1. 集成学习概念2. 个体学习器概念3. boosting bagging3.1.1Boosting 的思想3.1.2Boosting的特点3.2.1Bagging的思想3.2.2Bagging的特点4. 结合策略(平均法，投票法，学习法)4.1平均法4.2投票法4.3学习法5. 随机森林思想6. ...

2019-03-01 21:17:29 575

“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能：减少特征数量、降维，使模型泛化能力更强，减少过拟合增强对特征和特征值之间的理解拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通...

2018-06-25 09:56:14 1713

原创 Java中Comparable和Comparator区别

Java中Comparable和Comparator区别阅读目录一、Comparable简介二、Comparator简介三、Comparable和Comparator区别比较一、Comparable简介　　Comparable是排序接口。若一个类实现了Comparable接口，就意味着该类支持排序。实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arr...

2018-06-21 09:35:03 307

原创 Spark基本函数操作实例

这是编写spark程序的一些常用的基本函数接下来我将会通过编写代码来使用这些函数package com.zlf.sparkimport org.apache.spark.SparkContextimport org.apache.spark.SparkConf/** * spark 基本函数操作实例 */object FunctionTest { def main(args:

2017-05-19 10:13:07 672

原创读取HDFS上的文件时报错

使用spark读取HDFS上的文件时报错报错使用spark读取HDFS上的文件时报错 Exception in thread “main” java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag

2017-05-12 10:18:49 1394

原创 Hadoop，往map/reduce中传值的问题解决方法实例

Hadoop，往map/reduce中传值的问题解决方法实例最近在看一些map/reduce的程序，其中遇到一个问题：就是在类中定义的属性无法被mapreduce程序直接获取。具体代码如下public class KeyJob { public static class myMap extends Mapper<LongWritable, Text, Text, IntWritable> {

2017-01-10 14:35:57 2474

原创 XGB算法梳理

目录1.CART树2.算法原理3.损失函数4.分裂节点算法5.正则化6.对缺失值的处理7.优缺点8.sklearn参数9.应用场景1.CART树CART算法流程：若满足停止分裂条件（样本个数小于预定阈值，或Gini指数小于预定阈值（样本基本属于同一类，或没有特征可供分裂），则停止分裂；否则，选择最小Gini指数进行分裂；递归执行1-2步...

2019-03-05 21:38:35 9126

原创 GBDT算法知识梳理

目录1.前向分布算法2.负梯度拟合3.损失函数4.回归5.二分类，多分类二元分类GBDT分类算法多元分类GBDT分类算法6.正则化7.优缺点8.sklearn参数8.1 GBDT类库boosting框架参数8.2 GBDT类库弱学习器CART参数调节9.应用场景参考1.前向分布算法前向分布算法是大多Boosting算法的一...

2019-03-03 21:51:10 888

原创图解《字典学习》

PPT&代码链接csdn:https://download.csdn.net/download/u012037852/10899017github:https://github.com/longfeizhou2016/Dictionary-learning

2019-01-06 12:27:12 2466 7

原创 CH07 数据规整化

# encoding:utf-8# pandas 主要的数据读取功能# import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as np#=======1.DataFrame合并========# 1.1 索引上mergedf1=DataFrame({'key':list('bbacaab'),...

2018-11-29 08:21:51 246

原创 pandas 读取常见各类数据源

# encoding:utf-8# pandas 主要的数据读取功能# import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as npdf=pd.read_csv('data/ch06/ex1.csv') # 通过read_csv读取csv文件pd.read_table('data/ch06/...

2018-11-21 21:10:34 1858

原创 pandas 学习笔记

# encoding:utf-8# pandas 主要有两个对象 Series 和 DataFrame # 特点就是运算索引和列名会自动对齐# ==============Series=================obj = Series(np.random.randn(5),index=list('bcda')) #新建 Series obj = Series({'a...

2018-11-19 21:44:53 255

原创 Numpy学习笔记

np.shape #查看数组维度np.dtype #查看数据类型np.ndim #查看数组维度,列数np.random.rand(2,3) #生成2行3列的高斯随机数组np.arange(5) / np.arange(0,5) #array([0, 1, 2, 3, 4])np.array([2,3,4],dtype=np.int32) / np.asarray([2,3,4]...

2018-11-19 21:43:49 218

原创 SVD奇异值分解在推荐系统中的应用及实现

先找到用户没有评分的物品，然后再经过SVD“压缩”后的低维空间中，计算未评分物品与其他物品的相似性，得到一个预测打分，再对这些物品的评分从高到低进行排序，返回前N个物品推荐给用户。

2018-07-29 19:42:55 2876 1

原创二叉堆及堆排序JAVA PriorityQueue实现

JAVA util包中的PriorityQueue 类提供了堆的实现，原理是优先队列，默认构建的是最小堆如果需要构建最大堆，则需要实现Comparator类重写compare方法，按照本人的理解，将其写了出来：import java.util.Comparator;import java.util.PriorityQueue;public class MaxHeapPriori...

2018-07-02 10:25:52 340

原创二叉堆及堆排序JAVA实现原理详解

二叉堆JAVA实现最大堆：父结点的键值总是大于或等于任何一个子节点的键值；最小堆：父结点的键值总是小于或等于任何一个子节点的键值。首先二叉堆是一个完全二叉树，完全二叉树与满二叉树区别如下：完全二叉树有一个很好的性质就是： leftNo=parentNo*2+1 （注意：这个地方是数组的下标索引，从0开始，与书上的不同） rightNo=parentNo*2+2 因此我们可以...

2018-07-02 10:10:53 444

原创判断合法的出栈队列

判断合法的出栈队列java代码如下import java.util.LinkedList;import java.util.Queue;import java.util.Stack;public class IsStackSeq { public static boolean isStackSeq(Queue<Integer> queue){ Stack<I...

2018-06-30 19:49:46 640

原创机器学习项目流程

1.定义问题（分类/回归，有监督/无监督） a)导入类库 b)导入数据集2.理解数据（查看数据维度，字段类型，计算皮尔逊相关系数） a)描述性统计（分析数据的最大值，最小值，中位数，众数，四分位值，加深对数据分布，数据结构的理解） b)数据可视化（直方图，密度图—>得到数据的分布，变化小的特征意义不大，协方差热度图—>相关性大的不要）3.数据准备 a)数据...

2018-06-25 16:20:17 221

转载机器学习典型问题必知

如果希望了解机器学习，或者已经决定投身机器学习，你会第一时间找到各种教材进行充电，同时在心中默认：书里讲的是牛人大神的毕生智慧，是正确无误的行动指南，认真学习就能获得快速提升。但实际情况是，你很可能已经在走弯路。科技发展很快，数据在指数级增长，环境也在指数级改变，因此很多时候教科书会跟不上时代的发展。有时，即便是写教科书的人，也不见得都明白结论背后的“所以然”，因此有些结论就会落后于时代。针对这个...

2018-06-25 10:24:12 603

转载机器学习项目实践流程

机器学习是一项经验技能，经验越多越好。在项目建立的过程中，实践是掌握机器学习的最佳手段。在实践过程中，通过实际操作加深对分类和回归问题的每一个步骤的理解，达到学习机器学习的目的。预测模型项目模板不能只通过阅读来掌握机器学习的技能，需要进行大量的练习。本文将介绍一个通用的机器学习的项目模板，创建这个模板总共有六个步骤。通过本文将学到：端到端地预测（分类与回归）模型的项目结构。如何将前面学到的内容引入...

2018-06-25 10:22:47 727

原创 Git 连接GitHub 步骤图解

1. 本地配置开始配置, 使用以下命令即可:git config --global user.name "Your Name"git config --global user.email "email@example.com"注意: git config命令的–global参数，用了这个参数，表示你这台机器上所有的 Git 仓库都会使用这个配置，当然也可以对某个仓库指定不同的用户名和 Email...

2018-06-21 10:01:06 18525 1

原创 JAVA实现各种排序算法详解

0、排序算法说明0.1 排序的定义对一序列对象根据某个关键字进行排序。0.2 术语说明稳定：如果a原本在b前面，而a=b，排序之后a仍然在b的前面；不稳定：如果a原本在b的前面，而a=b，排序之后a可能会出现在b的后面；内排序：所有排序操作都在内存中完成；外排序：由于数据太大，因此把数据放在磁盘中，而排序通过磁盘和内存的数据传输才能进行；时间复杂度：一个算法执行所耗费的时间。空间复杂度：运行完一...

2018-06-21 09:45:04 751

原创 Java集合类: Set、List、Map、Queue使用场景梳理

Java集合类: Set、List、Map、Queue使用场景梳理目录1. Java集合类基本概念2. Java集合类架构层次关系3. Java集合类的应用场景代码 1. Java集合类基本概念在编程中，常常需要集中存放多个数据。从传统意义上讲，数组是我们的一个很好的选择，前提是我们事先已经明确知道我们将要保存的对象的数量。一旦在数组初始化时指定了这个数组长度，这个数组长度就是不可变的，如果我...

2018-06-21 09:40:28 187

原创 python new和del方法 spyder中运行结果不一致

python __new__和__del__方法 spyder中运行结果不一致

2017-10-10 11:06:49 838

原创 python 列表常用函数操作

python 列表常用函数操作

2017-10-09 10:59:11 1206

转载使用分区(Partitioning)提高Spark的运行性能——Improving Spark Performance With Partitioning

使用分区(Partitioning)提高Spark的运行性能——Improving Spark Performance With Partitioning本文的译文请移步至https://www.iteblog.com/archives/1695.htmlAt Sortable we use Spark for many of our data processing tasks. Sp

2017-05-22 11:24:40 1180

原创 hadoop webUI上不能查看log日志输出信息

hadoop webUI上不能查看log日志输出信息本文由longfeizhou编写，转载请注明出处问题原因报错解决办法问题hadoop webUI上查看任务运行输出日志，任务运行中可以正常查看，但当任务完成后却无法查看日志输出报错java.lang.Exception: Unknown container. Container either has not started or h

2017-05-08 12:07:07 4235 1