【分布式计算】分布式日志导入工具-Flume

背景 Flume是Apache赞助的一个分布式日志管理系统,主要功能就是把集群中每个worker产生的日志log,collect到特定的地点。 为什么要写这篇文章呢,因为现在搜索出来的文献大多是老版本的flume,在flume1.X版本后,也就是flume-ng版本跟之前出现了很大的改动,市面上的很多文档都已经过时了,大家看的时候一定要注意这点,稍后我会提供几个比较新的,有参考价值的文章。...
阅读(1095) 评论(3)

高效MacBook工作环境配置

1. 硬件提升笔记本电脑的特点是携带方便,缺点是屏幕太小,因此你首先需要再申请领用一个外接显示器,多一个屏幕会大大减少你切换应用程序的次数,显著提升你的工作效率,别忘了同时申请一个Mini DP转VGA的转接头用于连接显示器。为了配合多显示器,后面会推荐一个软件来管理多显示器窗口。如果你资金宽裕,可以买个机械键盘和无线鼠标,进一步提升工作效率。2. 系统设置2.1 将功能键(F1-F12)设置为标...
阅读(1939) 评论(0)

【LeetCode从零单排】No.135Candy(双向动态规划)

1.题目There are N children standing in a line. Each child is assigned a rating value.You are giving candies to these children subjected to the following requirements:Each child must have at least one ca...
阅读(1080) 评论(1)

机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。学习方式根据数据类型的不同,对一个问题的建模有不同的方式...
阅读(1405) 评论(0)

大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会在当前目录自动生成10000行一例的文件。(2)去重sort -u origin.txt -o outp...
阅读(1333) 评论(0)

【分布式计算】DFS && BigTable

1.背景分布式计算的发迹应该是google在2003年发表的三篇paper,分别是GFS、MapReduce、BigTable。其中MapReduce大家都很熟悉了,不懂的同学也可以看看我之前写的文章【分布式计算】MapReduce的替代者-Parameter Server为什么google会搞分布式计算这件事儿呢,因为在那个年代每天会产生几个T的日志,但是当时的磁盘只允许存储几百G的文件,07年...
阅读(1117) 评论(0)

unittest单元测试

1.背景 到了公司发现,ut(单元测试)是非常重要的一部分,ut并不是完全是测试的同学完成,很多时候ut是需要开发的同学自己来做。研究了下python脚本下unittest包的用法。使用的时候要import unittest包,函数的传入参数unittest.TestCase,主要结构包括:setUp():初始化测试函数tearDown():测试结束后的清理工作若干测试函数以test为开头2.代码...
阅读(1231) 评论(0)

面试题总结~~(google level)

题目一Trapping Rain WaterGiven n non-negative integers representing an elevation map where the width of each bar is 1, compute how much water it is able to trap after raining.For example, Given [0,1,0,2,...
阅读(1088) 评论(0)

29个你必须知道的Linux命令

虽然Linux发行版支持各种各样的饿GUI(graphical user interfaces),但在某些情况下,Linux的命令行接口(bash)仍然是简单快速的。Bash和 Linux Shell 需要输入命令来完成任务,因而被称为 命令行 接口。命令是计算机执行任务的指令。可以使用命令去关闭计算机,或者列出当前目录的文件列表,或当前文本的内容,或者屏幕显示一条消息。如果你是一个新手,并尝试使...
阅读(861) 评论(0)

【LeetCode从零单排】No198.House Robber &&No91.Decode Ways&&139 word break(动态规划典型应用)

1.题目一道典型的Dynamic Programming的题目。You are a professional robber planning to rob houses along a street. Each house has a certain amount of money stashed, the only constraint stopping you from robbing eac...
阅读(883) 评论(0)

【LeetCode从零单排】No22.Generate Parentheses

题目Given n pairs of parentheses, write a function to generate all combinations of well-formed parentheses.For example, given n = 3, a solution set is:"((()))", "(()())", "(())()", "()(())", "()()()"代码F...
阅读(870) 评论(0)

【分布式计算】MapReduce的替代者-Parameter Server

首先还是要声明一下,这个文章是我在入职阿里云1个月以来,对于分布式计算的一点肤浅的认识,可能有些地方不够妥善,还请看官可以指出不足的地方,共同进步。一.背景随着互联网的发展,数据量的增大,很多对于数据的处理工作(例如一些推荐系统、广告推送等)都迁移到了云端,也就是分布式计算系统上。衍生了很多牛逼的分布式计算的计算模型,比较著名的就是MapReduce、MPI、BSP等。后来也产生了一些分布式计算系统...
阅读(7399) 评论(3)

google的面试要求(自己的标杆)

http://sites.google.com/site/steveyegge2/five-essential-phone-screen-questionse Five Essential Phone-Screen Questions Stevey's Drunken Blog Rants™I've been on a lot of SDE interview loops lately where...
阅读(1386) 评论(0)

【LeetCode从零单排】No221.Maximal Square

题目Given a 2D binary matrix filled with 0's and 1's, find the largest square containing all 1's and return its area.For example, given the following matrix:1 0 1 0 0 1 0 1 1 1 1 1 1 1 1 1 0 0 1 0 Retur...
阅读(948) 评论(0)

【Hadoop】MAC下hadoop2.6安装以及执行wordcount

【Hadoop】MAC下hadoop2.6安装以及执行wordcount首先简单介绍下博主的配置环境 MAC 10.10.0 hadoop 2.6 JDK 1.6(可以在shell里用jdk -version查询) hadoop安装安装的话推荐使用mac下面的brew,理由就是用brew安装的话,它会自动给帮你配置好相应的路径。当然也可以到官网下载,注意jdk和hadoop版本要对应。brew in...
阅读(1924) 评论(0)

shell启动sublime

cd /usr/binsudo ln -s /Applications/Sublime\ Text\ 2.app/Contents/SharedSupport/bin/subl sublln是链接的意思...
阅读(883) 评论(0)

面试总结-腾讯产品群面

坊间一直相传腾讯的产品、百度的技术、阿里的淘宝和金融,是比较牛逼的,所以当时就鬼使神差的报了腾讯的产品经理(pdm)。没想到跟技术面大不一样,上来就是群面啊,而且对手不是不善言表的码农,是很多各种专业的漂亮妹子以及穿正装的汉子.......不过博主还是机智的通过了群面,看来冷峻的工科男还是比较受面试官青睐的。上来一分钟自我介绍,好吧,除了我以外大家都说了好多套话,类似于“很荣幸来到这里”、“希望大...
阅读(1895) 评论(0)

面试总结-阿里巴巴

过了笔试,终于迎来了面试环节喽。这次是电话面试,博主面的是数据产品经理,算法工程师大神太多,果断怂了,产品经理也不错,一直想试试第一问:介绍下你的项目    刚开始我先确定了下是产品经理的岗位,然后果断调整战术,毕竟技术出身。。。讲了我的几个android应用的设计思路和使用情况。他主要是问了下设计的原理什么的,用户量。   突然他话锋一转,说了下我们是数据产品经理,于是博主意识到原来关键词是数据...
阅读(1539) 评论(5)

sql语句学习

针对一个表练习1.建表create table student(name Char(20),curriculum Char(20),score Char(20));插入数据: INSERT INTO student (name,curriculum,score) VALUES('王五','数学','100');mysql> select * from student;+--------+-----...
阅读(945) 评论(0)

MAC下homebre安装mysql

1.执行安装命令 brew install mysql2.执行完输入mysql会有如下bugERROR 2002 (HY000): Can not connect to local MySQL server through socket '/tmp/mysql.sock' (2)3.bug解决方案unset TMPDIR4.然后mysql_install_db --verbose --user=r...
阅读(1082) 评论(0)
248条 共13页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    我的微信公众号

    作者公众号:凡人机器学习

    凡人机器学习

    作者新书《机器学习实践应用》
    个人资料
    • 访问:638828次
    • 积分:9068
    • 等级:
    • 排名:千里之外
    • 原创:215篇
    • 转载:33篇
    • 译文:0篇
    • 评论:417条
    博客专栏
    统计