大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。(2)去重sort -u origin.txt -o outp...
阅读(1821) 评论(0)

【分布式计算】DFS && BigTable

1.背景分布式计算的发迹应该是google在2003年发表的三篇paper,分别是GFS、MapReduce、BigTable。其中MapReduce大家都很熟悉了,不懂的同学也可以看看我之前写的文章【分布式计算】MapReduce的替代者-Parameter Server为什么google会搞分布式计算这件事儿呢,因为在那个年代每天会产生几个T的日志,但是当时的磁盘只允许存储几百G的文件,07年...
阅读(1301) 评论(0)

unittest单元测试

1.背景 到了公司发现,ut(单元测试)是非常重要的一部分,ut并不是完全是测试的同学完成,很多时候ut是需要开发的同学自己来做。研究了下python脚本下unittest包的用法。使用的时候要import unittest包,函数的传入参数unittest.TestCase,主要结构包括:setUp():初始化测试函数tearDown():测试结束后的清理工作若干测试函数以test为开头2.代码...
阅读(1621) 评论(0)

面试题总结~~(google level)

题目一Trapping Rain WaterGiven n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.For example, Given [0,1,0,2,...
阅读(1287) 评论(0)

29个你必须知道的Linux命令

虽然Linux发行版支持各种各样的饿GUI(graphical user interfaces),但在某些情况下,Linux的命令行接口(bash)仍然是简单快速的。Bash和 Linux Shell 需要输入命令来完成任务,因而被称为 命令行 接口。命令是计算机执行任务的指令。可以使用命令去关闭计算机,或者列出当前目录的文件列表,或当前文本的内容,或者屏幕显示一条消息。如果你是一个新手,并尝试使...
阅读(1023) 评论(0)

【LeetCode从零单排】No198.House Robber &&No91.Decode Ways&&139 word break(动态规划典型应用)

1.题目一道典型的Dynamic Programming的题目。You are a professional robber planning to rob houses along a street. Each house has a certain amount of money stashed, the only constraint stopping you from robbing eac...
阅读(1099) 评论(0)

【LeetCode从零单排】No22.Generate Parentheses

题目Given n pairs of parentheses, write a function to generate all combinations of well-formed parentheses.For example, given n = 3, a solution set is:"((()))", "(()())", "(())()", "()(())", "()()()"代码F...
阅读(1005) 评论(0)

【分布式计算】MapReduce的替代者-Parameter Server

首先还是要声明一下,这个文章是我在入职阿里云1个月以来,对于分布式计算的一点肤浅的认识,可能有些地方不够妥善,还请看官可以指出不足的地方,共同进步。一.背景随着互联网的发展,数据量的增大,很多对于数据的处理工作(例如一些推荐系统、广告推送等)都迁移到了云端,也就是分布式计算系统上。衍生了很多牛逼的分布式计算的计算模型,比较著名的就是MapReduce、MPI、BSP等。后来也产生了一些分布式计算系统...
阅读(8784) 评论(3)

google的面试要求(自己的标杆)

http://sites.google.com/site/steveyegge2/five-essential-phone-screen-questionse Five Essential Phone-Screen Questions Stevey's Drunken Blog Rants™I've been on a lot of SDE interview loops lately where...
阅读(1623) 评论(0)

【LeetCode从零单排】No221.Maximal Square

题目Given a 2D binary matrix filled with 0's and 1's, find the largest square containing all 1's and return its area.For example, given the following matrix:1 0 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0 1 0 Retur...
阅读(1258) 评论(0)

【Hadoop】MAC下hadoop2.6安装以及执行wordcount

【Hadoop】MAC下hadoop2.6安装以及执行wordcount首先简单介绍下博主的配置环境 MAC 10.10.0 hadoop 2.6 JDK 1.6(可以在shell里用jdk -version查询) hadoop安装安装的话推荐使用mac下面的brew,理由就是用brew安装的话,它会自动给帮你配置好相应的路径。当然也可以到官网下载,注意jdk和hadoop版本要对应。brew in...
阅读(2394) 评论(0)

shell启动sublime

cd /usr/binsudo ln -s /Applications/Sublime\ Text\ 2.app/Contents/SharedSupport/bin/subl sublln是链接的意思...
阅读(1178) 评论(0)

面试总结-腾讯产品群面

坊间一直相传腾讯的产品、百度的技术、阿里的淘宝和金融,是比较牛逼的,所以当时就鬼使神差的报了腾讯的产品经理(pdm)。没想到跟技术面大不一样,上来就是群面啊,而且对手不是不善言表的码农,是很多各种专业的漂亮妹子以及穿正装的汉子.......不过博主还是机智的通过了群面,看来冷峻的工科男还是比较受面试官青睐的。上来一分钟自我介绍,好吧,除了我以外大家都说了好多套话,类似于“很荣幸来到这里”、“希望大...
阅读(2463) 评论(0)

面试总结-阿里巴巴

过了笔试,终于迎来了面试环节喽。这次是电话面试,博主面的是数据产品经理,算法工程师大神太多,果断怂了,产品经理也不错,一直想试试第一问:介绍下你的项目    刚开始我先确定了下是产品经理的岗位,然后果断调整战术,毕竟技术出身。。。讲了我的几个android应用的设计思路和使用情况。他主要是问了下设计的原理什么的,用户量。   突然他话锋一转,说了下我们是数据产品经理,于是博主意识到原来关键词是数据...
阅读(1788) 评论(5)

sql语句学习

针对一个表练习1.建表create table student(name Char(20),curriculum Char(20),score Char(20));插入数据: INSERT INTO student (name,curriculum,score) VALUES('王五','数学','100');mysql> select * from student;+--------+-----...
阅读(1117) 评论(0)

MAC下homebre安装mysql

1.执行安装命令 brew install mysql2.执行完输入mysql会有如下bugERROR 2002 (HY000): Can not connect to local MySQL server through socket '/tmp/mysql.sock' (2)3.bug解决方案unset TMPDIR4.然后mysql_install_db --verbose --user=r...
阅读(1600) 评论(0)

【LeetCode从零单排】No133. clon graph (BFS广度优先搜索)

背景(以下背景资料转载自:http://www.cnblogs.com/springfor/p/3874591.html?utm_source=tuicool)DFS(Dpeth-first Search)顾名思义,就是深度搜索,一条路走到黑,再选新的路。记得上Algorithm的时候,教授举得例子就是说,DFS很像好奇的小孩,你给这个小孩几个盒子套盒子,好奇的小孩肯定会一个盒子打开后继续再在这个...
阅读(1299) 评论(0)

面试总结-百度(2)

百度数据挖掘部门     跟一面隔了差不多一个星期,收到了二面的通知,这次不是去百度大厦,是去科技园。第一次来科技园,发现这里还是一片工地,有很多大的IT公司,看到汉王科技、IBM之类的。     面试官是一个三十五岁左右的一个看似像是部门leader的人。拿着电脑,边面试边处理工作,氛围比一面的时候轻松了许多。先是问了下基本情况,比较感兴趣实验室是做什么的。然后指出了我在一个项目中使用的机器学习...
阅读(1511) 评论(1)

【LeetCode从零单排】No121 Best Time to Buy and Sell Stock

题目Say you have an array for which the ith element is the price of a given stock on day i.If you were only permitted to complete at most one transaction (ie, buy one and sell one share of the stock), d...
阅读(1140) 评论(0)

单链表问题(反转、是否有环、删除结尾第N个节点、合并两个sortlist、找到交点)

1.时间复杂度O(N),内存O(1)的效率下实现单链表的翻转public static TreeNode revers(TreeNode head){ TreeNode temp,first,second; first=head; second=head.next; while(second!=null){ temp=second.next; second.next=...
阅读(1383) 评论(0)
264条 共14页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    作者新书《机器学习实践应用》

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    个人资料
    • 访问:752438次
    • 积分:10304
    • 等级:
    • 排名:第1811名
    • 原创:225篇
    • 转载:39篇
    • 译文:0篇
    • 评论:452条
    博客专栏
    统计