MrLevo520的博客

Github:https://github.com/MrLevo520 少数派:https://sspai.com/user/808474

Sqoop学习笔记

前言 在搭建公司的一些平台产品的时候,前端需要的渲染的数据往往是需要使用集群资源进行计算的,比如hive,spark等。然而web端对数据查询和显示有着较高的需求,所以查询端放在hive或者spark都变得不切实际,速度太慢。一般的处理方式是使用mysql当做结果存储,使用简单的selec...

2018-09-16 14:22:13

阅读数:115

评论数:0

解决:提交的hive任务如何找回其提交的语句

只记得表名或者该任务的一些关键字,忘记了自己创建表时候的语句,可以从hive的执行日志中获取原始数据。特别适合定位该测试表是怎么创建的,或者定位别人表创建的由来 首先要确认提交的hive任务是在哪一台服务器提交的,一般默认hive的执行日志会放在提交任务的机器的/data/hive/tm...

2018-08-26 15:19:02

阅读数:214

评论数:0

Docker 学习笔记

建议学习过程 @S_gy_Zetrov–一篇很棒的入门教程 Docker — 从入门到实践–粗略的看下,各个名词部分,进阶部分可以看情况看 @孤天浪雨–Docker系列,建议从第一篇开始看 值得考虑的问题 @傅飞–Docker与虚拟机的区别 @黄庆兵–如何精简压缩ima...

2018-02-10 00:48:53

阅读数:485

评论数:0

使用python对高光谱数据进行处理和分类

目的 加载遥感图像的.mat数据进行呈图显示 将.mat的数据转化为python后续算法处理的csv文件 存储训练模型,观察分类效果,在图中显示与原图对比 方法Refer:spectral python官网 使用超强的spectral包! 目的1 - 代码 加载遥感图像的.mat数据进行呈...

2017-11-12 15:20:13

阅读数:6610

评论数:6

Stacking Learning在分类问题中的使用

建议先阅读以下文章 回归问题构建stacking模型 分类问题构建stacking模型 code Pay Attention Further建议先阅读以下文章 知乎(必读):Kaggle机器学习之模型融合(stacking)心得 Blog:Stacking Models for Improved ...

2017-10-05 15:51:13

阅读数:2456

评论数:0

KAGGLE ENSEMBLING GUIDE(注脚)

About Trs KAGGLE ENSEMBLING GUIDE Creating ensembles from submission files Voting ensembles Error correcting codes A machine learning example A pinch...

2017-10-05 13:15:15

阅读数:773

评论数:0

总结:sklearn机器学习之特征工程

关于本文 特征工程是什么 32 数据探索性分析Exploratory Data AnalysisEDA 数据预处理 1 无量纲化 数据规范化 11 标准化 0均值标准化Z-score standardization 12 区间缩放法线性函数归一化Min-Max scaling 13 标准化与...

2017-09-25 15:24:46

阅读数:3385

评论数:1

数据结构与算法-排序篇-Python描述

前言 补习基础的数据结构和算法的时候,很多都是用c或者java写的,顺便我用python重构一遍吧,也当做是补习了~ 排序算法冒泡排序 ​ 冒泡排序原理即:从数组下标为0的位置开始,比较下标位置为0和1的数据,如果0号位置的大,则交换位置,如果1号位置大,则什么也不做,然后右移一个位置,比...

2017-09-04 00:42:10

阅读数:4111

评论数:6

总结:数据清洗的一些总结

前言 在整理项目的时候发现清洗过程是一个非常细节的过程,几乎贯穿始终,也是后续步骤特征提取等的前置条件,所以整理如下,因为展开较大,所以我已近上传mindnode脑图和原始照片尺寸,请在这里下载数据清洗脑图原版 致谢机器学习基础与实践(一)—-数据清洗箱形图为什么能检测异常值,原理是什么?五个...

2017-08-25 14:31:54

阅读数:720

评论数:0

网易2018校招内推编程题(Python描述)

总结一下网易2018内推的测试题,我看python的比较少,所以献上自己的low代码,都AC过的,大毛病应该没有,看来基础还是得抓紧练习! [编程题] 彩色的砖块时间限制:1秒空间限制:32768K 小易有一些彩色的砖块。每种颜色由一个大写字母表示。各个颜色砖块看起来都完全一样。现在有一个给定...

2017-08-14 20:12:42

阅读数:3696

评论数:0

总结:Spark性能优化上的一些总结

Spark性能调优 整理来自于: Spark性能优化指南——基础篇​ 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能...

2017-08-13 10:33:58

阅读数:1162

评论数:0

总结:详细讲解MapReduce过程(整理补充)

关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。 从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原...

2017-08-06 17:05:16

阅读数:9650

评论数:0

总结:Hive,Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程 执行流程详...

2017-08-04 22:36:07

阅读数:25059

评论数:0

总结:Hive性能优化上的一些总结

注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总...

2017-07-29 16:25:19

阅读数:18742

评论数:2

笔记:新手的Spark指南

macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉 Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分...

2017-07-25 17:21:43

阅读数:1125

评论数:1

动态规划(DP)的整理-Python描述

今天整理了一下关于动态规划的内容,道理都知道,但是python来描述的方面参考较少,整理如下,希望对你有所帮助,实验代码均经过测试。 请先好好阅读如下内容–什么是动态规划? 摘录于《算法图解》 以上的都建议自己手推一下,然后知道怎么回事,核心的部分是142页核心公式,待会代码会重现这个过程,...

2017-07-22 01:49:45

阅读数:11311

评论数:1

pyspark中combineByKey的两种理解方法

Spark 1.6 以前一直模模糊糊的,现在搞一下比较清楚 combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash...

2017-07-21 13:40:39

阅读数:1121

评论数:0

解决:MySQL Load Data数据丢失问题

MySQL 5.7 MacOS Sirrea 10.12.1前言 很简单,我得文件里面20w数据,导入MySQL后只剩下16w条数据,无Deleted无Skipped 排查方法 既然数据丢失了,那把成表后的数据全部导出,然后和原始的数据进行对比验证 select * from db.ta...

2017-07-13 20:57:40

阅读数:3092

评论数:0

数据向:我到底是谁的歌迷?

MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言 发现自己有时候比挖掘别人来的更加有意义,自己到底喜欢谁的歌,自己真的知道么?习惯不会骗你 搭建爬虫环境1.安装seleniumpip install seleni...

2017-07-10 02:01:53

阅读数:3668

评论数:9

笔记:新手的Hive指南

前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 SQL基本语法 Python基础语法(HiveStreaming会用到) Java基础语法(写UDF会用到) Hadoop基础(毕竟mapred过程) ...

2017-07-09 21:37:43

阅读数:3901

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭