关闭

网易2018校招内推编程题(Python描述)

总结一下网易2018内推的测试题,我看python的比较少,所以献上自己的low代码,都AC过的,大毛病应该没有,看来基础还是得抓紧练习! [编程题] 彩色的砖块时间限制:1秒空间限制:32768K 小易有一些彩色的砖块。每种颜色由一个大写字母表示。各个颜色砖块看起来都完全一样。现在有一个给定的字符串s,s中每个字符代表小易的某个砖块的颜色。小易想把他所有的砖块排成一行。如果最多存在一对不同颜色...
阅读(161) 评论(0)

总结:Spark性能优化上的一些总结

Spark性能调优 整理来自于: Spark性能优化指南——基础篇​ 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设...
阅读(83) 评论(0)

总结:详细讲解MapReduce过程(整理补充)

关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。 从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写mapreduc...
阅读(87) 评论(0)

总结:Hive,Hive on Spark和SparkSQL区别

Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结 Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H...
阅读(233) 评论(0)

总结:Hive性能优化上的一些总结

注意,本文百分之九十来源于此文:Hive性能优化,很感谢作者的细心整理,其中有些部分我做了补充和追加,要是有什么写的不对的地方,请留言赐教,谢谢前言 今天电话面试突然被涉及到hive上有没有做过什么优化,当时刚睡醒,迷迷糊糊的没把以前实习的中遇到的一些问题阐述清楚,这里顺便转载一篇并来做一下总结 介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数...
阅读(1303) 评论(2)

笔记:新手的Spark指南

macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉 Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何...
阅读(302) 评论(0)

动态规划(DP)的整理-Python描述

今天整理了一下关于动态规划的内容,道理都知道,但是python来描述的方面参考较少,整理如下,希望对你有所帮助,实验代码均经过测试。 请先好好阅读如下内容–什么是动态规划? 摘录于《算法图解》 以上的都建议自己手推一下,然后知道怎么回事,核心的部分是142页核心公式,待会代码会重现这个过程,推荐没有算法基础的小伙伴看这本书《算法图解》很有意思的书,讲的很清晰,入门足够 更深入的请阅读pytho...
阅读(411) 评论(0)

pyspark中combineByKey的两种理解方法

Spark 1.6 以前一直模模糊糊的,现在搞一下比较清楚 combineByKey(createCombiner, mergeValue, mergeCombiners, numPartitions=None, partitionFunc=) 它是一个泛型函数,主要完成聚合操作,将输入RDD[(K,V)]转化为...
阅读(176) 评论(0)

解决:MySQL Load Data数据丢失问题

MySQL 5.7 MacOS Sirrea 10.12.1前言 很简单,我得文件里面20w数据,导入MySQL后只剩下16w条数据,无Deleted无Skipped 排查方法 既然数据丢失了,那把成表后的数据全部导出,然后和原始的数据进行对比验证 select * from db.table INTO OUTFILE '/usr/local/mysql-5.7.18-macos10.1...
阅读(316) 评论(0)

数据向:我到底是谁的歌迷?

MacOS Sierra 10.12.1 Python 2.7 selenium 3.4.3 phantomjs 忘了前言 发现自己有时候比挖掘别人来的更加有意义,自己到底喜欢谁的歌,自己真的知道么?习惯不会骗你 搭建爬虫环境1.安装seleniumpip install selenium # anaconda环境的可用conda install selenium # 网速不好的可用到h...
阅读(2214) 评论(8)

笔记:新手的Hive指南

前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 SQL基本语法 Python基础语法(HiveStreaming会用到) Java基础语法(写UDF会用到) Hadoop基础(毕竟mapred过程) 什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据...
阅读(349) 评论(0)

解决:MacOS下配置Hadoop及Hive单机遇到的问题(们)

MacOS Sierra 10.12.1 Hadoop 2.7.3 Hive 1.2.1前言 本来安逸搞个local 的spark算了,但是过几天我还要搞个网易云音乐的大新闻,没有hive不得劲,遂装,期间遇到的问题,一一记录 安装 基础安装,先照这个来吧,反正肯定不会一次成功,科科,还可以自己百度,很多很多的 @jeetpan–Mac 系统安装Hadoop 2.7.3问题 这才是重...
阅读(366) 评论(0)

数据向:618价格到底~到底是不是最低?

云服务器:ESC Ubuntu 16.04 x64 PhantomJS:beta-Linux-ubuntu-xenial 2.1.1 Python 2.7.12前言 好久没玩点有意思的了,这次借618这个购物节,自己也要搞台mbp,顺便搞一波大新闻。 内容 对某宝的其中四家店,再加上某东一家店,对比同一款机型,对价格进行监控,至于监控时间,大概是不间断的监控吧,还有邮件提醒哦~ 涉及...
阅读(535) 评论(1)

解决:在anaconda下无法使用conda安装第三方库问题

Anaconda2 Python 2.7.12 云服务器:ESC Ubuntu 16.04 x64问题无法使用conda进行安装第三方包 mrlevo@mrlevo-Lenovo:~$ conda install folium Fetching package metadata … CondaHTTPError: HTTP None None for url https://mi...
阅读(347) 评论(0)

解决:Ubuntu(MacOS)+phantomjs+python的部署问题

云服务器:ESC Ubuntu 16.04 x64 PhantomJS:beta-linux-ubuntu-xenial 2.1.1 Python 2.7.12目的 租了台服务器当计算和运行平台,主要用于分布式网路爬虫,有需要用到phantomjs的地方,网上资料比较少,自己花了点时间,整理了一下 安装phantomjs(Ubuntu版本)phantomjs下载地址,这里根据自己系统版本进...
阅读(652) 评论(0)
88条 共6页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:150801次
    • 积分:2345
    • 等级:
    • 排名:第15993名
    • 原创:88篇
    • 转载:0篇
    • 译文:0篇
    • 评论:56条
    博客专栏
    最新评论