自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mac Track

你有一个特别擅长的方向吗? 特别熟悉?有丰富的经验?

  • 博客(636)
  • 收藏
  • 关注

转载 通道答辩的7个小技巧

通道评审直接关系到个人的职业发展,事关重大。最近辅导了一些同学的通道答辩,主要是产品方向,也有设计和技术方向,感觉大家准备通道评审有一些共性的问题;我想不如写出来,供同学们参考,大家有不同看法也方便提出来,一起讨论一起进步。1、展示你的核心能力,而不是罗列项目。(Show your core competency, through projects)好多同学的答辩PPT都是按照时间排序,把自己做过...

2018-05-22 17:15:53 428

转载 通俗理解卷积神经网络(cs231n与5月dl班课程笔记)

 通俗理解卷积神经网络(cs231n与5月dl班课程笔记)1 前言    2012年我在北京组织过8期machine learning读书会,那时“机器学习”非常火,很多人都对其抱有巨大的热情。当我2013年再次来到北京时,有一个词似乎比“机器学习”更火,那就是“深度学习”。    本博客内写过一些机器学习相关的文章,但上一篇技术文章“LDA主题模型”还是写于2014年11月份,毕竟自2015年开...

2018-04-19 11:15:51 681

转载 阿里十年陈讲述:阿里巴巴管理三板斧

阿里巴巴从最初的以马老师为首的18罗汉创始员工,发展至今拥有数万员工;从杭州的湖畔花园起家,到去美国纽约证券交易所上市敲钟。阿里巴巴如何走到现在?它背后的管理机制是怎样的?我们到底向它学什么?内容来源:2018年1月11日,阿里十年陈员工、原阿里集团CMO线大政委、布道教育总经理陈亮老师,在阿里巴巴商学院2017总裁班第四期课程上的分享。● 阿里巴巴管理总纲● 阿里巴巴九板斧● 中层能力三板斧一、...

2018-04-08 11:57:49 4065

转载 协同过滤推荐算法的原理及实现

一、协同过滤算法的原理及实现二、基于物品的协同过滤算法详解一、协同过滤算法的原理及实现协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物...

2018-04-04 10:54:01 724

转载 RF、GBDT、XGBoost面试级整理

RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。   根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系、可同时生成的并行化方法;前者的代表就是Boosting,后者的代表是Bagg...

2018-03-27 13:52:36 312

转载 Community Detection 算法

社区发现(Community Detection)算法用来发现网络中的社区结构,也可以视为一种广义的聚类算法。以下是我的一个 PPT 报告,分享给大家。        从上述定义可以看出:社区是一个比较含糊的概念,只给出了一个定性的刻画。另外需要注意的是,社区是一个子图,包含顶点和边。

2018-01-22 09:47:37 296

转载 我的数学之美系列二 —— simhash与重复信息识别

在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复的网页是毫无意义的,只会造成存储和计算资源的浪费;同时,展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可

2018-01-11 15:28:14 313

转载 朴素贝叶斯文本分类算法学习

最近在学习推荐系统过程中,要用到朴素贝叶斯(Naive Bayes)进行文本的分类。再一次深刻认识到学好基础知识的重要性,要理解朴素贝叶斯,需要有很好的概率与数理统计,离散数学基础。一.Naive Bayes基础知识。对于随机试验E有两个随机事件A,B,且P(B) > 0 那么在B事件发生的条件下A发生的概率为:其中P(AB)为A,B两个事件的联合概率。对上式利用乘法公式可以变形为:这样就得...

2017-11-08 17:45:55 742

转载 机器学习算法之朴素贝叶斯(Naive Bayes)--第二篇

引言如果你对朴素贝叶斯的原理不太清楚,请看我的第一篇文章:http://blog.csdn.net/xlinsist/article/details/51236454这篇文章主要介绍将朴素贝叶斯模型应用到文本分类任务的技巧和方法。词袋模型(The Bag of Words Model)对于机器学习算法来说,特征的选择是一个很重要的过程。那么如何从文本训练集中选出好的

2017-11-08 17:21:57 1397

转载 机器学习经典算法详解及Python实现---朴素贝叶斯分类及其在文本分类、垃圾邮件检测中的应用

摘要:朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较大时,朴素贝叶斯分类效率比不上决策树模型;当各特征相关性较小时,朴素贝叶斯分类性能最为良好。另外

2017-11-08 14:53:18 2509

转载 机器学习经典算法详解及Python实现---Logistic回归(LR)分类器

(一)认识Logistic回归(LR)分类器首先,Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题,利用Logistic函数(或称为Sigmoid函数),自变量取值范围为(-INF, INF),自变量的取值范围为(0,1),函数形式为:由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的

2017-11-08 09:56:19 582

转载 逻辑回归LR

逻辑回归算法相信很多人都很熟悉,也算是我比较熟悉的算法之一了,毕业论文当时的项目就是用的这个算法。这个算法可能不想随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深的样子,可是绝对不能小看这个算法,因为它有几个优点是那几个算法无法达到的,一是逻辑回归的算法已经比较成熟,预测较为准确;二是模型求出的系数易于理解,便于解释,不属于黑盒模型,尤其在银行业,80%的预测是使用逻辑回归;三是结果

2017-11-08 09:54:27 326

转载 机器学习中的数学(2)-线性回归,偏差、方差权衡

版权声明:    本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com。如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任。如果有问题,请联系作者 wheeleast@gmail.com前言:    距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得

2017-11-07 15:35:42 400

转载 机器学习经典算法之-----最小二乘法

一.背景   5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。   回来赶紧上百度,搜了下

2017-11-07 15:15:12 477

转载 Apache Kylin在百度地图的实践

摘要:百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。1. 前言百度地图开放平台业务部数据智能组主要负责百度地图内部相关业务的大数据计算分析,处理日常百亿级规模数据,为不同业务提供单条SQL毫秒级响应的OLAP多维分析查询服务。对于Apache Kyl

2017-10-31 14:54:00 427

转载 大数据性能调优之HBASE的ROWKEY设计

2014 年 11 月 29 日  Tenking文本推荐横屏阅读1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进

2017-10-31 10:21:26 533

转载 解读《“三板斧”-阿里巴巴管理之道》| 余歌

三板斧-阿里巴巴管理之道1, 管理的真相是什么?“三板斧”是阿里巴巴的一门培训课程.形象一点比喻分别是:”揪头发”—指组织中的向上思考;“照镜子”—指团队中的自我认知;“闻味道”指发展中的精神融合。这三点说的是组织中的管理者如何通过管理团队的力量,成就自我的成长与整个团队的发展。区别于“HIRE&FIRE(招人才)”“TEAM BUILDING(建团队)”“GET RESULT

2017-10-16 16:36:00 2281

转载 阅读优秀代码是提高开发人员修为的一种捷径

【伯乐在线导读】:原文作者Alan Skorkin是一名软件开发人员,他在博客中分享对软件开发相关的心得,其中有很多优秀的文章,本文是其中的另一篇。Alan认为:阅读优秀代码是提高开发人员修为的一种捷径。以下是全文。我突然想起来,很多程序员都讨厌阅读代码。来吧,承认吧! 每个人都喜欢编写代码,编代码是件趣事。 另一方面,阅读代码也不容易。 不仅不容易(编注:参见《微软资深软件工程师:阅读代

2017-10-13 14:59:31 270 1

转载 Python 基础语法

Python 基础语法Python语言与Perl,C和Java等语言有许多相似之处。但是,也存在一些差异。在本章中我们将来学习Python的基础语法,让你快速学会Python编程。用一张图概况Python学习第一个Python程序交互式编程交互式编程不需要创建脚本文件,是通过 Python 解释器的交互模式进来编写代码

2017-10-11 11:00:20 715

转载 Google的大规模集群管理系统Borg

编者按:本文是对Google在分布式底层架构的经典文章的翻译,原文可以查看这里,由于原文较长,建议先收藏本文,再下载英文原文,对照译文仔细阅读,可事半功倍。摘要:Google的Borg系统是一个运行着成千上万项作业的集群管理器,它同时管理着很多个应用集群,每个集群都有成千上万台机器,这些集群之上运行着Google的很多不同的应用。Borg通过准入控制,高效的任务打包,超额的资源分配和进

2017-09-15 09:49:15 1034

转载 机器学习算法之朴素贝叶斯(Naive Bayes)--第一篇

引言先前曾经看了一篇文章,一个老外程序员写了一些很牛的Shell脚本,包括晚下班自动给老婆发短信啊,自动冲Coffee啊,自动扫描一个DBA发来的邮件啊, 等等。于是我也想用自己所学来做一点有趣的事情。我的想法如下:首先我写个scrapy脚本来抓取某个网站上的笑话之后写个Shell脚本每天早上6点自动抓取最新的笑话然后用朴素贝叶斯模型来判断当前的笑话是否属于成人笑话如果是成人笑话,

2017-07-07 09:59:11 1302

转载 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力。本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感。 Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

2017-05-18 11:45:29 1708

转载 欠拟合、过拟合及其解决方法

在我们机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题,但是,一开始我们的模型往往是欠拟合的,也正是因为如此才有了优化的空间,我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了,这个问题也在学术界讨论的比较多。(之前搜了很多有的博客,讲的都不太全,因此我重新整理总结了一遍,同时加入了自己的理解,方便自己和后来人查阅)

2017-01-13 10:08:34 1335

转载 集成学习——Bootstrap Bagging AdaBoost算法

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。 简单地说,就是通过抽样等方式从原始数据集构造m个训练集,再选择一个弱分类器(比如决策树)对这些训练集进行训练得到m个分类器,在待分类数据进行分类时,同时使用这m个分类器去判断,使用多数表决或者权重联合的方式综合这m个分类器给出的分类结果,得到最终结果。 就好比是:

2017-01-12 17:40:27 596

转载 机器学习——决策树算法原理及案例

机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS Modeler这两个工具,分别设计与实现了决策树模型的应用实例。1.机器学习概念

2017-01-12 15:32:23 2750

转载 Logistic Regression(逻辑回归)详细讲解

Logistic Regression(逻辑回归)以前在学校学到Logistic Regression的时候,虽然最后会使用,但是对于许多地方有很多的疑惑,今天在这里详细梳理一下Logistic Regression的过程:Logistic Regression逻辑回归回归的思想Logistic Regression形式损失函数最小化Einw E_invec w

2017-01-12 13:56:37 1282

转载 K-means聚类算法

K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。     聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如

2017-01-06 13:49:18 425

转载 机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。  机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一个方面是学习的方式,第二个方面是算法的类似性。  学习方式  根

2016-12-24 22:32:28 632 1

转载 十个值得一试的开源深度学习框架

本周早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。无疑,来自Google军火库的TensorFlow必然是开源深度学习软件中的明星产品,登陆GitHub当天就成为最受关注的项目,当周获得评星数就轻松超过1万

2016-12-13 14:50:25 2632

转载 通俗理解神经网络之激励函数(Activation Function)

关于神经网络激励函数的作用,常听到的解释是:不使用激励函数的话,神经网络的每层都只是做线性变换,多层输入叠加后也还是线性变换。因为线性模型的表达能力不够,激励函数可以引入非线性因素。 其实很多时候我们更想直观的了解激励函数的是如何引入非线性因素的。我们使用神经网络来分割平面空间作为例子。无激励函数的神经网络神经网络最简单的结构就是单输出的单层感知机,单层感知机只有输入层和输

2016-12-01 14:02:58 2674

转载 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1

注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、

2016-11-29 10:43:33 2013

转载 Presto:Facebook的分布式SQL查询引擎

背景Facebook是一家数据驱动的公司。 数据处理和分析是Facebook为10亿多活跃用户开发和交付产品的核心所在。 我门拥有世界上最大的数据仓库之一,存储了大约 300PB 以上的数据。 这些数据被一系列不同种类的程序所使用, 包括传统的数据批处理程序、基于图论的数据分析[1]、机器学习、和实时性的数据分析。分析人员、数据科学家和工程师需要处理数据、分析数据、不断地改善我们的

2016-09-26 09:23:27 1132

转载 Understanding HDFS Recovery Processes (Part 2)

Having a good grasp of HDFS recovery processes is important when running or moving toward production-ready Apache Hadoop. In the conclusion to this two-part post, pipeline recovery is explained.An

2016-07-23 21:49:48 627

转载 Understanding HDFS Recovery Processes (Part 1)

Having a good grasp of HDFS recovery processes is important when running or moving toward production-ready Apache Hadoop.An important design requirement of HDFS is to ensure continuous and correct

2016-07-23 21:43:16 527

转载 验证码对抗之路及现有验证机制介绍

yahoo邮箱在九几年的时候,业务深受各种邮箱机器人的困扰,存在着大量的垃圾邮件,于是他们找到了当时仍在读大学的路易斯·冯·安(Luis von Ahn),并设计了经典的图形验证码,即通过简单的扭曲图形文字进行机器的识别。通过这个简单的图形,他们很快的控制住了垃圾邮件的数量,并将大量的机器人据之门外。但是即使验证码解决了垃圾邮件的问题,我们仍要提出一个问句:

2016-07-17 14:28:17 802

转载 验证码的前世今生(今生篇)

看完《验证码的前世今生(前世篇)》也许第一感觉就是Winter is coming,互联网的人机对抗到了最黑暗的时刻。柳暗花明又一村,最黑暗的时刻也是光明即将来临的时刻——在传统验证码的末日新的反向图灵测试机制浴火重生。0×1 验证码的划代标准在介绍新的反向图灵测试机制前,首先我们对验证码进行划代对比。通过验证码的划代对比我们能更清楚新型验证码的特性。验证码划代

2016-07-15 09:48:37 632

转载 验证码的前世今生(前世篇)

常在网上晃悠的人,对上面这张图都不会陌生。特别是在注册新账号、确认交易时,它们都会频繁出现,要求我们输入正确的验证码,那这些看上去跟我们要做的事情完全无关的验证码到底有何作用呢?0×1诞生首先,先介绍下验证码程序的提出者,路易斯·冯·安(Luis von Ahn)。2002年,路易斯和他的小伙伴在卡内基梅隆第一次提出了CAPTCHA(验证码)这样一个程序概念。该程序是指,向请求的发

2016-07-15 09:47:17 562

转载 浅谈CSRF攻击方式

一.CSRF是什么?  CSRF(Cross-site request forgery),中文名称:跨站请求伪造,也被称为:one click attack/session riding,缩写为:CSRF/XSRF。二.CSRF可以做什么?  你这可以这么理解CSRF攻击:攻击者盗用了你的身份,以你的名义发送恶意请求。CSRF能够做的事情包括:以你名义发送邮件,发消息,盗取

2016-02-17 20:07:20 338

转载 Hadoop之父祝贺黄色小象十岁生日快乐

编者按Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。Doug Cutting是Hadoop的发起人,这篇

2016-02-16 19:40:10 836

转载 HIVE 0.14 Cost Based Optimizer (CBO) Technical Overview

Analysts and data scientists⎯not to mention business executives⎯want Big Data not for the sake of the data itself, but for the ability to work with and learn from that data. As other users become more

2016-02-16 13:27:16 1392 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除