- 博客(7)
- 资源 (20)
- 收藏
- 关注
原创 总结:Hive性能优化上的一些总结
注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数
2017-07-29 16:25:19 43122 10
原创 笔记:新手的Spark指南
macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何
2017-07-25 17:21:43 2205 1
原创 动态规划(DP)的整理-Python描述
今天整理了一下关于动态规划的内容,道理都知道,但是python来描述的方面参考较少,整理如下,希望对你有所帮助,实验代码均经过测试。请先好好阅读如下内容–什么是动态规划? 摘录于《算法图解》 以上的都建议自己手推一下,然后知道怎么回事,核心的部分是142页核心公式,待会代码会重现这个过程,推荐没有算法基础的小伙伴看这本书《算法图解》很有意思的书,讲的很清晰,入门足够更深入的请阅读pytho
2017-07-22 01:49:45 42356 10
原创 pyspark中combineByKey的两种理解方法
Spark 1.6 以前一直模模糊糊的,现在搞一下比较清楚combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=<function portable_hash at 0x7f1ac7340578>)它是一个泛型函数,主要完成聚合操作,将输入RDD[(K,V)]转化为
2017-07-21 13:40:39 3318
原创 解决:MySQL Load Data数据丢失问题
MySQL 5.7 MacOS Sirrea 10.12.1前言 很简单,我得文件里面20w数据,导入MySQL后只剩下16w条数据,无Deleted无Skipped排查方法 既然数据丢失了,那把成表后的数据全部导出,然后和原始的数据进行对比验证select * from db.table INTO OUTFILE '/usr/local/mysql-5.7.18-macos10.1
2017-07-13 20:57:40 8128
原创 数据向:我到底是谁的歌迷?
MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言 发现自己有时候比挖掘别人来的更加有意义,自己到底喜欢谁的歌,自己真的知道么?习惯不会骗你搭建爬虫环境1.安装seleniumpip install selenium# anaconda环境的可用conda install selenium# 网速不好的可用到h
2017-07-10 02:01:53 4530 9
原创 笔记:新手的Hive指南
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧基础SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础(毕竟mapred过程)什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据
2017-07-09 21:37:43 8315 1
基于python豆瓣自定义电影抓取2.0
2016-10-01
knn算法实例Python版本
2016-09-08
Python+MySQL用户加密存储验证系统
2016-08-04
基于python豆瓣自定义电影抓取GUI版本
2016-07-22
参考文献生成器1.0
2016-07-21
基于python豆瓣自定义电影抓取
2016-07-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人