- 博客(5)
- 资源 (20)
- 收藏
- 关注
原创 总结:数据清洗的一些总结
前言 在整理项目的时候发现清洗过程是一个非常细节的过程,几乎贯穿始终,也是后续步骤特征提取等的前置条件,所以整理如下,因为展开较大,所以我已近上传mindnode脑图和原始照片尺寸,请在这里下载数据清洗脑图原版致谢机器学习基础与实践(一)—-数据清洗箱形图为什么能检测异常值,原理是什么?五个步骤教你数据清洗数据清洗基本概念标准化矩阵 协方差矩阵 相关系数矩阵数据挖掘数据预处理之:异常值检测数据
2017-08-25 14:31:54 4906
原创 网易2018校招内推编程题(Python描述)
总结一下网易2018内推的测试题,我看python的比较少,所以献上自己的low代码,都AC过的,大毛病应该没有,看来基础还是得抓紧练习![编程题] 彩色的砖块时间限制:1秒空间限制:32768K 小易有一些彩色的砖块。每种颜色由一个大写字母表示。各个颜色砖块看起来都完全一样。现在有一个给定的字符串s,s中每个字符代表小易的某个砖块的颜色。小易想把他所有的砖块排成一行。如果最多存在一对不同颜色
2017-08-14 20:12:42 5696
原创 总结:Spark性能优化上的一些总结
Spark性能调优 整理来自于: Spark性能优化指南——基础篇 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设
2017-08-13 10:33:58 2420
原创 总结:详细讲解MapReduce过程(整理补充)
关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写mapreduc
2017-08-06 17:05:16 27359 6
原创 总结:Hive,Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H
2017-08-04 22:36:07 44818 1
基于python豆瓣自定义电影抓取2.0
2016-10-01
knn算法实例Python版本
2016-09-08
Python+MySQL用户加密存储验证系统
2016-08-04
基于python豆瓣自定义电影抓取GUI版本
2016-07-22
参考文献生成器1.0
2016-07-21
基于python豆瓣自定义电影抓取
2016-07-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人