关闭

Stacking Learning在分类问题中的使用

建议先阅读以下文章 回归问题构建stacking模型 分类问题构建stacking模型 code Pay Attention Further建议先阅读以下文章 知乎(必读):Kaggle机器学习之模型融合(stacking)心得 Blog:Stacking Models for Improved Predictions Blog:KAGGLE ENSEMBLING GUIDE(注脚) Blog:如何...
阅读(110) 评论(0)

KAGGLE ENSEMBLING GUIDE(注脚)

About Trs KAGGLE ENSEMBLING GUIDE Creating ensembles from submission files Voting ensembles Error correcting codes A machine learning example A pinch of maths Number of voters Correlation模型相关性 Use for...
阅读(83) 评论(0)

总结:sklearn机器学习之特征工程

关于本文 特征工程是什么 32 数据探索性分析Exploratory Data AnalysisEDA 数据预处理 1 无量纲化 数据规范化 11 标准化 0均值标准化Z-score standardization 12 区间缩放法线性函数归一化Min-Max scaling 13 标准化与归一化的区别 标准化规范化与归一化的区别 2 对定量特征二值化 3 对定性特征哑编码 4 缺失值计算...
阅读(181) 评论(0)

数据结构与算法-排序篇-Python描述

前言 补习基础的数据结构和算法的时候,很多都是用c或者java写的,顺便我用python重构一遍吧,也当做是补习了~ 排序算法冒泡排序 ​ 冒泡排序原理即:从数组下标为0的位置开始,比较下标位置为0和1的数据,如果0号位置的大,则交换位置,如果1号位置大,则什么也不做,然后右移一个位置,比较1号和2号的数据,和刚才的一样,如果1号的大,则交换位置,以此类推直至最后一个位置结束,到此数组中最大...
阅读(297) 评论(0)

总结:数据清洗的一些总结

前言 在整理项目的时候发现清洗过程是一个非常细节的过程,几乎贯穿始终,也是后续步骤特征提取等的前置条件,所以整理如下,因为展开较大,所以我已近上传mindnode脑图和原始照片尺寸,请在这里下载数据清洗脑图原版 致谢机器学习基础与实践(一)—-数据清洗箱形图为什么能检测异常值,原理是什么?五个步骤教你数据清洗数据清洗基本概念标准化矩阵 协方差矩阵 相关系数矩阵数据挖掘数据预处理之:异常值检测数据...
阅读(199) 评论(0)

网易2018校招内推编程题(Python描述)

总结一下网易2018内推的测试题,我看python的比较少,所以献上自己的low代码,都AC过的,大毛病应该没有,看来基础还是得抓紧练习! [编程题] 彩色的砖块时间限制:1秒空间限制:32768K 小易有一些彩色的砖块。每种颜色由一个大写字母表示。各个颜色砖块看起来都完全一样。现在有一个给定的字符串s,s中每个字符代表小易的某个砖块的颜色。小易想把他所有的砖块排成一行。如果最多存在一对不同颜色...
阅读(713) 评论(0)

总结:Spark性能优化上的一些总结

Spark性能调优 整理来自于: Spark性能优化指南——基础篇​ 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设...
阅读(222) 评论(0)

总结:详细讲解MapReduce过程(整理补充)

关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。 从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写mapreduc...
阅读(201) 评论(0)

总结:Hive,Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H...
阅读(1298) 评论(0)

总结:Hive性能优化上的一些总结

注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数...
阅读(1654) 评论(2)

笔记:新手的Spark指南

macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉 Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何...
阅读(507) 评论(1)

动态规划(DP)的整理-Python描述

今天整理了一下关于动态规划的内容,道理都知道,但是python来描述的方面参考较少,整理如下,希望对你有所帮助,实验代码均经过测试。 请先好好阅读如下内容–什么是动态规划? 摘录于《算法图解》 以上的都建议自己手推一下,然后知道怎么回事,核心的部分是142页核心公式,待会代码会重现这个过程,推荐没有算法基础的小伙伴看这本书《算法图解》很有意思的书,讲的很清晰,入门足够 更深入的请阅读pytho...
阅读(1059) 评论(0)

pyspark中combineByKey的两种理解方法

Spark 1.6 以前一直模模糊糊的,现在搞一下比较清楚 combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=) 它是一个泛型函数,主要完成聚合操作,将输入RDD[(K,V)]转化为...
阅读(287) 评论(0)

解决:MySQL Load Data数据丢失问题

MySQL 5.7 MacOS Sirrea 10.12.1前言 很简单,我得文件里面20w数据,导入MySQL后只剩下16w条数据,无Deleted无Skipped 排查方法 既然数据丢失了,那把成表后的数据全部导出,然后和原始的数据进行对比验证 select * from db.table INTO OUTFILE '/usr/local/mysql-5.7.18-macos10.1...
阅读(655) 评论(0)

数据向:我到底是谁的歌迷?

MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言 发现自己有时候比挖掘别人来的更加有意义,自己到底喜欢谁的歌,自己真的知道么?习惯不会骗你 搭建爬虫环境1.安装seleniumpip install selenium # anaconda环境的可用conda install selenium # 网速不好的可用到h...
阅读(2805) 评论(8)
93条 共7页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:205120次
    • 积分:2744
    • 等级:
    • 排名:第13739名
    • 原创:92篇
    • 转载:0篇
    • 译文:1篇
    • 评论:71条
    博客专栏
    最新评论