- 博客(16)
- 资源 (7)
- 收藏
- 关注
原创 IT资源专业搜索-www.easysoo.cn
易搜(www.easysoo.cn)是一个面向IT开发从业人员的专业资源搜索站点,它将全球的知名博客论坛、专业IT行业站点、知名咨询机构和IT解决方案紧密的连接在一起,为其提供免费的IT资源搜索,继而提高用户搜索的效率和持续价值。本站点融合了csdn博客、博客园、开源社区、红黑联盟、ITeye、51CTO、BlogJava、IT技术、ChinaUnix、开源中国、ITPUB、伯乐在线、Linux公社、脚本之家、Linux.中国、PHP100中文网、Stack Overflow、msdn、open pro
2015-12-11 18:17:20 865
原创 数据分析师常见的十道面试题目
数据分析师常见的10道面试题及解答1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及
2015-12-23 23:02:58 8188 1
数据分析师常见的十道面试题目
数据分析师常见的10道面试题及解答1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及...
2015-12-23 23:02:00 4919 2
转载 Spark解决Kaggle数据科学问题
作者:张天雷摘自:InfoQ如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题。近期,comSysto公司的Danial Bartl就分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。Danial提到,comSysto公司经常会举行一些讨论会,来评估未来的技术和共享以往的经验。在近期,大数据分析类
2015-12-23 23:01:06 917
Spark解决Kaggle数据科学问题
作者:张天雷摘自:InfoQ如何利用高性能分布式计算平台来解决现实问题一直是人们所关心的话题。近期,comSysto公司的Danial Bartl就分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。Danial提到,comSysto公司经常会举行一些讨论会,来评估未来的技术和共享以往的经验。在近期,大数据分析类...
2015-12-23 23:01:00 163
原创 程序猿之华丽转身:必杀之八技
既然你选择了程序员这一条路,就说明了你接受这工作给你带来的酸甜苦辣,无论如何,勿忘初心。1.技术只是工具而非解决问题之本当我们在为掌握了最新的技术而欢欣雀跃时,但这些东西并不是用来解决问题的根本——它们只是用于解决问题的简单工具而已。我们必须非常谨慎,不要对某项正好喜欢或者正好很火的特定技术走火入魔。否则,我们将进入这样的思维怪圈:把掌握的那项技术比做是锤子,在思考问题时,会自然的
2015-12-23 22:55:27 979
程序猿之华丽转身:必杀之八技
既然你选择了程序员这一条路,就说明了你接受这工作给你带来的酸甜苦辣,无论如何,勿忘初心。1.技术只是工具而非解决问题之本当我们在为掌握了最新的技术而欢欣雀跃时,但这些东西并不是用来解决问题的根本——它们只是用于解决问题的简单工具而已。我们必须非常谨慎,不要对某项正好喜欢或者正好很火的特定技术走火入魔。否则,我们将进入这样的思维怪圈:把掌握的那项技术比做是锤子,在思考问题时,会自然的把所...
2015-12-23 22:55:00 282
原创 机器学习:你需要多少训练数据?
作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。从谷歌的机器学习代码中得知,目前需要一万亿个训练样本训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你
2015-12-22 23:02:01 6418
机器学习:你需要多少训练数据?
摘自:PPTV课堂作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。从谷歌的机器学习代码中得知,目前需要一万亿个训练样本训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你正在执行的任务、最终想通...
2015-12-22 23:02:00 1782
原创 教你用Python抢票 100%秒杀抢票
随着春节的临近,大家都在和12306斗智斗勇。今天,小编为大家分享不到100行的Python程序帮助大家来抢票。 首先说明一下,我们程序的出发点是能用机器做的事就用机器做,需要人来做的事还是要自己来做。因此,12306上五花八门的验证码还是需要大家自己动手输入确认的。另外,本程序对容错什么的考虑较少,请大家见谅。 我们要用到浏览器chrome,还没有安装的读者可
2015-12-22 22:54:34 16038
教你用Python抢票 100%秒杀抢票
摘自:柠檬大数据随着春节的临近,大家都在和12306斗智斗勇。今天,小编为大家分享不到100行的Python程序帮助大家来抢票。 首先说明一下,我们程序的出发点是能用机器做的事就用机器做,需要人来做的事还是要自己来做。因此,12306上五花八门的验证码还是需要大家自己动手输入确认的。另外,本程序对容错什么的考虑较少,请大家见谅。 我们要用到浏览器chrome,还没有安装的读者可以从...
2015-12-22 22:54:00 4457
原创 程序猿之华丽转身:写Paper也很重要
作为特殊的一类群体,程序员往往表示着一群非常热衷于解决问题的人群,他们会因为探索计算机的奥秘、放弃社交、娱乐等时间来进行学习、交流,所以技术的层次成为了这个行业的等级制度,每位程序员都渴望技术得到提升、那么问题来了,写Paper能够给程序员带来哪些收益?
2015-12-22 22:48:33 660
程序猿之华丽转身:写Paper也很重要
今天是冬至,首先祝大家节日快乐,同时也提前祝圣诞快乐!现在我们进入正题《程序猿华丽转身之paper也很重要》。作为特殊的一类群体,程序员往往表示着一群非常热衷于解决问题的人群,他们会因为探索计算机的奥秘、放弃社交、娱乐等时间来进行学习、交流,所以技术的层次成为了这个行业的等级制度,每位程序员都渴望技术得到提升、那么问题来了,写Paper能够给程序员带来哪些收益?仿佛是写给自己看的...
2015-12-22 22:48:00 200
原创 程序猿之华丽转身:五年 == 100W
导读:100万人民币,对于身处帝都或者国内大多数一线城市来说,并不算什么太大数字,也不能解决什么根本性问题,但是对于一个刚刚工作几年的程序员来说,却是一个难以实现的人生目标,不过作为过来人我要告诉你,合理的做好规划,这个目标是不难实现的,并且五年后的你得到的不只是100万,而是人生通往成功的稳固基石。
2015-12-22 22:41:22 736
程序猿之华丽转身:五年 == 100W
导读:100万人民币,对于身处帝都或者国内大多数一线城市来说,并不算什么太大数字,也不能解决什么根本性问题,但是对于一个刚刚工作几年的程序员来说,却是一个难以实现的人生目标,不过作为过来人我要告诉你,合理的做好规划,这个目标是不难实现的,并且五年后的你得到的不只是100万,而是人生通往成功的稳固基石。那么步入正题,作为一个程序员,如何攒够100万呢?资金的积累无外乎开源节流,不断的通过...
2015-12-22 22:41:00 107
IT资源专业搜索-www.easysoo.cn
创始人:samrthhl时间:2015-11-8关于易搜易搜(www.easysoo.cn)是一个面向IT开发从业人员的专业资源搜索站点,它将全球的知名博客论坛、专业IT行业站点、知名咨询机构和IT解决方案紧密的连接在一起,为其提供免费的IT资源搜索,继而提高用户搜索的效率和持续价值。本站点融合了csdn博客、博客园、开源社区、红黑联盟、ITeye、51CTO、BlogJa...
2015-12-11 18:17:00 194
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人