- 博客(28)
- 资源 (6)
- 收藏
- 关注
原创 随机森林算法梳理
随机森林算法梳理目录随机森林算法梳理1. 集成学习概念2. 个体学习器概念3. boosting bagging3.1.1Boosting 的思想3.1.2Boosting的特点3.2.1Bagging的思想3.2.2Bagging的特点4. 结合策略(平均法,投票法,学习法)4.1平均法4.2投票法4.3学习法5. 随机森林思想6. ...
2019-03-01 21:17:29 506
原创 特征选择方法总结
“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通...
2018-06-25 09:56:14 1656
原创 Java中Comparable和Comparator区别
Java中Comparable和Comparator区别阅读目录一、Comparable简介二、Comparator简介三、Comparable和Comparator区别比较一、Comparable简介 Comparable是排序接口。若一个类实现了Comparable接口,就意味着该类支持排序。实现了Comparable接口的类的对象的列表或数组可以通过Collections.sort或Arr...
2018-06-21 09:35:03 288
原创 Spark基本函数操作实例
这是编写spark程序的一些常用的基本函数 接下来我将会通过编写代码来使用这些函数package com.zlf.sparkimport org.apache.spark.SparkContextimport org.apache.spark.SparkConf/** * spark 基本函数操作实例 */object FunctionTest { def main(args:
2017-05-19 10:13:07 634
原创 读取HDFS上的文件时报错
使用spark读取HDFS上的文件时报错报错使用spark读取HDFS上的文件时报错 Exception in thread “main” java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag
2017-05-12 10:18:49 1335
原创 Hadoop,往map/reduce中传值的问题解决方法实例
Hadoop,往map/reduce中传值的问题解决方法实例最近在看一些map/reduce的程序,其中遇到一个问题:就是在类中定义的属性无法被mapreduce程序直接获取。具体代码如下public class KeyJob { public static class myMap extends Mapper<LongWritable, Text, Text, IntWritable> {
2017-01-10 14:35:57 2412
原创 XGB算法梳理
目录1.CART树2.算法原理3.损失函数4.分裂节点算法5.正则化6.对缺失值的处理7.优缺点8.sklearn参数9.应用场景1.CART树CART算法流程:若满足停止分裂条件(样本个数小于预定阈值,或Gini指数小于预定阈值(样本基本属于同一类,或没有特征可供分裂),则停止分裂; 否则,选择最小Gini指数进行分裂; 递归执行1-2步...
2019-03-05 21:38:35 8736
原创 GBDT算法知识梳理
目录1.前向分布算法2.负梯度拟合3.损失函数4.回归5.二分类,多分类二元分类GBDT分类算法多元分类GBDT分类算法6.正则化7.优缺点8.sklearn参数8.1 GBDT类库boosting框架参数8.2 GBDT类库弱学习器CART参数调节9.应用场景参考1.前向分布算法前向分布算法是大多Boosting算法的一...
2019-03-03 21:51:10 751
原创 图解《字典学习》
PPT&代码链接csdn:https://download.csdn.net/download/u012037852/10899017github:https://github.com/longfeizhou2016/Dictionary-learning
2019-01-06 12:27:12 2409 7
原创 CH07 数据规整化
# encoding:utf-8# pandas 主要的数据读取功能# import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as np#=======1.DataFrame合并========# 1.1 索引上mergedf1=DataFrame({'key':list('bbacaab'),...
2018-11-29 08:21:51 227
原创 pandas 读取常见各类数据源
# encoding:utf-8# pandas 主要的数据读取功能# import pandas as pdfrom pandas import DataFrame,Seriesimport numpy as npdf=pd.read_csv('data/ch06/ex1.csv') # 通过read_csv读取csv文件pd.read_table('data/ch06/...
2018-11-21 21:10:34 1800
原创 pandas 学习笔记
# encoding:utf-8# pandas 主要有两个对象 Series 和 DataFrame # 特点就是运算索引和列名会自动对齐# ==============Series=================obj = Series(np.random.randn(5),index=list('bcda')) #新建 Series obj = Series({'a...
2018-11-19 21:44:53 223
原创 Numpy学习笔记
np.shape #查看数组维度np.dtype #查看数据类型np.ndim #查看数组维度,列数np.random.rand(2,3) #生成2行3列的高斯随机数组np.arange(5) / np.arange(0,5) #array([0, 1, 2, 3, 4])np.array([2,3,4],dtype=np.int32) / np.asarray([2,3,4]...
2018-11-19 21:43:49 196
原创 SVD奇异值分解在推荐系统中的应用及实现
先找到用户没有评分的物品,然后再经过SVD“压缩”后的低维空间中,计算未评分物品与其他物品的相似性,得到一个预测打分,再对这些物品的评分从高到低进行排序,返回前N个物品推荐给用户。
2018-07-29 19:42:55 2629 1
原创 二叉堆及堆排序JAVA PriorityQueue实现
JAVA util包中的PriorityQueue 类 提供了堆的实现,原理是优先队列,默认构建的是最小堆 如果需要构建最大堆,则需要实现Comparator类 重写compare方法,按照本人的理解,将其写了出来:import java.util.Comparator;import java.util.PriorityQueue;public class MaxHeapPriori...
2018-07-02 10:25:52 315
原创 二叉堆及堆排序JAVA实现原理详解
二叉堆JAVA实现最大堆:父结点的键值总是大于或等于任何一个子节点的键值;最小堆:父结点的键值总是小于或等于任何一个子节点的键值。首先二叉堆是一个完全二叉树,完全二叉树与满二叉树区别如下: 完全二叉树有一个很好的性质就是: leftNo=parentNo*2+1 (注意:这个地方是数组的下标索引,从0开始,与书上的不同) rightNo=parentNo*2+2 因此我们可以...
2018-07-02 10:10:53 408
原创 判断合法的出栈队列
判断合法的出栈队列java代码如下import java.util.LinkedList;import java.util.Queue;import java.util.Stack;public class IsStackSeq { public static boolean isStackSeq(Queue<Integer> queue){ Stack<I...
2018-06-30 19:49:46 618
原创 机器学习项目流程
1.定义问题(分类/回归,有监督/无监督) a)导入类库 b)导入数据集2.理解数据(查看数据维度,字段类型,计算皮尔逊相关系数) a)描述性统计(分析数据的最大值,最小值,中位数,众数,四分位值,加深对数据分布,数据结构的理解) b)数据可视化(直方图,密度图—>得到数据的分布,变化小的特征意义不大,协方差热度图—>相关性大的不要)3.数据准备 a)数据...
2018-06-25 16:20:17 194
转载 机器学习典型问题必知
如果希望了解机器学习,或者已经决定投身机器学习,你会第一时间找到各种教材进行充电,同时在心中默认:书里讲的是牛人大神的毕生智慧,是正确无误的行动指南,认真学习就能获得快速提升。但实际情况是,你很可能已经在走弯路。科技发展很快,数据在指数级增长,环境也在指数级改变,因此很多时候教科书会跟不上时代的发展。有时,即便是写教科书的人,也不见得都明白结论背后的“所以然”,因此有些结论就会落后于时代。针对这个...
2018-06-25 10:24:12 550
转载 机器学习项目实践流程
机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的。预测模型项目模板不能只通过阅读来掌握机器学习的技能,需要进行大量的练习。本文将介绍一个通用的机器学习的项目模板,创建这个模板总共有六个步骤。通过本文将学到:端到端地预测(分类与回归)模型的项目结构。如何将前面学到的内容引入...
2018-06-25 10:22:47 672
原创 Git 连接GitHub 步骤图解
1. 本地配置开始配置, 使用以下命令即可:git config --global user.name "Your Name"git config --global user.email "email@example.com"注意: git config命令的–global参数,用了这个参数,表示你这台机器上所有的 Git 仓库都会使用这个配置,当然也可以对某个仓库指定不同的用户名和 Email...
2018-06-21 10:01:06 17914 1
原创 JAVA实现各种排序算法详解
0、排序算法说明0.1 排序的定义对一序列对象根据某个关键字进行排序。0.2 术语说明稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面;内排序:所有排序操作都在内存中完成;外排序:由于数据太大,因此把数据放在磁盘中,而排序通过磁盘和内存的数据传输才能进行;时间复杂度: 一个算法执行所耗费的时间。空间复杂度:运行完一...
2018-06-21 09:45:04 713
原创 Java集合类: Set、List、Map、Queue使用场景梳理
Java集合类: Set、List、Map、Queue使用场景梳理目录1. Java集合类基本概念2. Java集合类架构层次关系3. Java集合类的应用场景代码 1. Java集合类基本概念在编程中,常常需要集中存放多个数据。从传统意义上讲,数组是我们的一个很好的选择,前提是我们事先已经明确知道我们将要保存的对象的数量。一旦在数组初始化时指定了这个数组长度,这个数组长度就是不可变的,如果我...
2018-06-21 09:40:28 171
原创 python __new__和__del__方法 spyder中运行结果不一致
python __new__和__del__方法 spyder中运行结果不一致
2017-10-10 11:06:49 812
转载 使用分区(Partitioning)提高Spark的运行性能——Improving Spark Performance With Partitioning
使用分区(Partitioning)提高Spark的运行性能——Improving Spark Performance With Partitioning本文的译文请移步至https://www.iteblog.com/archives/1695.htmlAt Sortable we use Spark for many of our data processing tasks. Sp
2017-05-22 11:24:40 1126
原创 hadoop webUI上不能查看log日志输出信息
hadoop webUI上不能查看log日志输出信息本文由longfeizhou编写,转载请注明出处问题 原因 报错解决办法 问题hadoop webUI上查看任务运行输出日志,任务运行中可以正常查看,但当任务完成后却无法查看日志输出报错java.lang.Exception: Unknown container. Container either has not started or h
2017-05-08 12:07:07 4142 1
Freemake Video Converter破解版 强大的视频剪辑和格式转换工具
2018-11-29
2013数学建模B题附件四答案代码顺序
2013-09-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人