自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(125)
  • 收藏
  • 关注

转载 百度、腾讯和阿里内部的级别和薪资待遇是什么样的?

作者:周萌萌链接:https://www.zhihu.com/question/27108669/answer/35568881来源:知乎级别和薪资待遇,除非身居其位,否则你不会知道;但是等你到那个位置知道了,却又不能说,至少不能在公开场合谈论。题主真是问了一个群众喜闻乐见却又讳莫如深的话题。别问我是怎么知道答案的,答主不是互联网猎头,答主正在做的事就是要用互联网产品100

2017-07-20 10:58:36 3309

转载 不到 200 行代码,教你如何用 Keras 搭建生成对抗网络(GAN)

原文转载:https://www.leiphone.com/news/201703/Y5vnDSV9uIJIQzQm.html生成对抗网络(Generative Adversarial Networks,GAN)最早由 Ian Goodfellow 在 2014 年提出,是目前深度学习领域最具潜力的研究成果之一。它的核心思想是:同时训练两个相互协作、同时又相互竞争的深度

2017-07-11 23:51:48 4308

原创 blogs

http://www.cnblogs.com/wangxiaocvpr/p/5894054.html一些相关的博客

2017-07-11 17:53:37 421

转载 PASCAL VOC2012目标检测权威评测夺冠之道

原文地址:http://www.cnblogs.com/wangxiaocvpr/p/5894054.html有些图看不太清楚,但是大概了解一下实验设计思路。近年来,随着深度学习的崛起,计算机视觉得到飞速发展。目标检测作为计算机视觉的基础算法,也搭上了深度学习的快车。基于Proposal的检测框架,从R-CNN到Faster R-CNN,算法性能越来越高,速度越来越快。

2017-07-11 17:48:57 3418

转载 百度、阿里和腾讯的大数据发展路线和区别

看中国科技企业发展,先看BAT。三家公司各自占据自己的领域,成为了无数小公司叹为仰止的高山,在大数据的领域里,又尤以BAT最为耀眼。在前不久的一次公开会议上,李彦宏、马云、马化腾又对数据的应用产生了公开分歧,三者分别认为数据的价值在于算法、数据量、场景化,这其实是暗合了三家公司的经营方向与理念。百度掌技术,阿里重规模,腾讯把持着社交与游戏,是妥妥的三种企业文

2017-07-11 17:45:55 5589

转载 图像识别与检测技术的创新

一是上下文特征与物体特征的融合技术(Fusion Of Context Feature and Object Feature)。优图团队从实际生活场景出发,意识到物体的“上下文环境“对最终的物体识别具有一定的辅助价值。因为物体通常不会独立的存在,与周遭的环境存在着一定的依存关系,比如,杯子一般都会放在桌子上,沙发一般出现在房间里,而轮船很难出现在街道上。据此优图团队提出了创新方案:分别建立了两套特

2017-07-10 14:41:41 3863

转载 内幕 | 我面试了900多名工程师,得出了这样的结论

Triplebyte是一家协助其他公司招聘工程师的企业。在他的招聘流程中不关注应聘者的背景,并通过多种方法来减少对应聘者的偏见,致力于创建更好的招聘流程。我们在Triplebyte公司做过很多次面试。事实上,在过去的两年里,我曾面试了900多名工程师。对于应聘者,我们不关注他们的背景,不看他们的证书或者简历,而是直接考核他们的编程技能。在工程师通过我

2017-07-09 20:38:14 812 1

转载 揭秘 DeepMind 的关系推理网络

原文:DeepMind’s Relational Reasoning Networks — Demystified 作者:Harshvardhan Gupta 翻译:汤益榕 审校/责编:屠敏,关注物联网、移动开发领域,寻求报道或投稿请发邮件tumin@csdn.net。每当 DeepMind 发表一篇新文章时,媒体都会有狂热的报道,而你常常会在这些报道中读到一些充满误导

2017-07-09 13:17:40 650

转载 特征工程(三) 数据标准化和归一化

归一化:1)把数据变成(0,1)之间的小数2)把有量纲表达式变成无量纲表达式 归一化算法有:1.线性转换       y=(x-MinValue)/(MaxValue-MinValue2.对数函数转换:      y=log10(x)3.反余切函数转换      y=atan(x)*2/PI4.线性也与对数函数结合      式(1)将输入值换算为[

2017-07-08 19:43:57 6429

转载 特征工程(一)

特征工程在数据处理上,其重要性是有目共睹的,这里转载一篇写的十分好的知乎评论,可以看一下https://www.zhihu.com/question/29316149

2017-07-08 14:45:08 416

转载 特征工程(二)

目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法

2017-07-08 14:40:38 570

原创 情感分类语料库

康奈尔大学电影评论数据http://www.cs.cornell.edu/people/pabo/movie-review-data/

2017-07-05 17:48:42 2431

原创 selfdriven

https://sites.google.com/site/cvadtutorial15/materials

2017-07-05 17:02:04 323

转载 人物介绍(二)

唐杰:做学术要像爷们一样“顶天立地”编者按:唐杰,CCF高级会员,清华大学副教授,主要研究方向为社会网络分析和数据挖掘。他曾潜心寂寞一年与团队做出网络挖掘与搜索系统ArnetMiner,在学术界得到了广泛的应用,吸引近210个国家与地区总计298万个独立IP的访问量。如今,身为副教授的他,以身作则告诉他的学生,做研究就要像个爷们那样“顶天立地”。唐杰,清华大学计算机

2017-07-05 16:38:55 553

转载 人物介绍(一)

偶然看到清华大学朱军老师的采访,时刻告诉自己要好好努力,不断向前,敢于挑战。朱军,2013 CCF青年科学家奖和2009 CCF优秀博士学位论文奖获得者。清华大学计算机系副教授、博士生导师,本硕博均就读于清华大学,后到美国卡耐基梅隆大学做博士后;主要研究方向为机器学习、概率图模型、贝叶斯统计及其在数据挖掘、图像处理等领域的应用;在机器学习领域的顶级会议(如ICML, NIPS, IJCAI

2017-07-05 16:30:37 575

转载 广义线性模型

这篇文章,介绍了广义线性模型,讲的很好,将许多看似没有关联的模型,都关联起来,最终发现都是基于指数分布族,只是对随机变量服从的分布做了不同的假设,因此得到了不同的机器学习模型,本文很好,转自: http://blog.csdn.net/acdreamers/article/details/44663091今天我来介绍一种在机器学习中应用的比较多的模型,叫做广义线性模型(GLM)

2017-07-05 10:37:42 641

转载 特征工程之连续特征与离散特征处理方法介绍

这篇文章讲得很好,转载自: http://blog.csdn.net/shenxiaoming77/article/details/52103124下面一篇是关于连续特征与离散特征处理的论文:Before I answer the above question, let us Go through some basic ideas.Why do we bin

2017-07-05 10:26:26 811

转载 Word Embedding中Embedding的解释

今天在看部分NLP中关于词处理的过程中,多次看到word embedding,word representation等关键词,其中对于嵌入的一个直观感受是将word从一个空间映射到另一个空间,这样做的好处是在另一个空间可以更好的对这些word进行处理。Hinton在20年前便提出了word representation,之后google提出了word2vec,具有很高的商业应用价值,这些映射方法最

2017-07-05 10:00:30 4540

原创 python tensorflow keras

近期仍然在使用keras进行模型的设计和算法的实验,在使用过程中,发现Conv1D可以处理可变长度的序列输入,在使用Conv1D的过程中,和使用其他卷积层稍有不同,这里不仅在1维空间中用kernel来进行平面卷积,而且使用的一个概念很好,那就是基于序列的处理方法,也就是有一批要学习的数据,这一批中的数据,每一个样本都是一个序列,也就是(sequence_size,fea_size),同时,kera

2017-07-04 17:39:50 1390

转载 A New General Deep Learning Approach for Natural Language Processing

http://ata2.cn-hangzhou.oss-cdn.aliyun-inc.com/HuiJiang-FOFE-Applications_b3fd0c3b5c5bd9cc1e233bf347c5af12.pdf?OSSAccessKeyId=5brTYsCF9kNTYdU5&Expires=1499173035&Signature=XMWc0C%2BvsWRYudc8MEIur%2BC6

2017-07-03 20:58:49 465

转载 浅谈Alpha Go所涉及的深度学习技术

作者注:关于Alfa Go的评论文章很多,但真正能够与开发团队交流的却不多,感谢Alfa Go开发团队DeepMind的朋友对我这篇文章内容的关注与探讨,指出我在之前那一版文章中用字上的不够精确,所以在此又作调整。我之前文章提到的「全局」指的是跨时间点的整场赛局,很容易被误认为是某个特定时点整个棋盘的棋局,所以后面全部都修改为「整体棋局」。此外,关于整体棋局评估,除了透过脱机数据学习的评价网络之外

2017-07-03 20:13:31 5890

转载 调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步

众包已经成为当今获取标记数据的基本手段。我们可以通过众包在短时间内以极为低廉的价格获取大量的标记数据。然而,通过众包获取的数据通常质量不高。这有两方面的原因:一是服务于众包平台的数据标记员通常缺乏相应的领域知识;二是众包平台没有有效的奖赏机制激励数据标记员提供高质量的工作。此报告将总结微软雷德蒙研究院过去几年在这个基本的众包问题的研究与工程上的进展。具体来说,我们的工作主要集中在群体智慧与激励机制

2017-06-30 16:57:03 288

原创 Python 图像处理第三方库

一般情况下,opencv是图像处理比较理想的选择,但是在一定情况下,安装opencv是需要花费一点时间和力气,但是这个库的确很强大(虽然并没有完全长期使用这个库,但是在各个系统上都安装过,编译过,一个比较好的途径是下载第三方编译好的opencv库,可以拿来直接安装使用)。这里再推荐一个比较好的Python第三方图像库PIL,我看了这个库的官网,感觉已经不再更新了,但是fork了这个库的

2017-06-30 09:55:16 4995

原创 机器学习大规模学习平台架构

对于已有的开源的机器学习框架,很多都是单机环境下部署的,但是对于大公司层面的机器学习的应用需求,简单的单机,分布式spark机器学习平台很难满足公司的大数据应用需求,因为不仅要求具有正确性,还要求高效性和稳定性。这里面存在很多的问题,比如模型如何在多台机器上跑,参数如何分布在多台服务器上,构成parameter server (google提出的),同样的,这些参数如何时时的更新,学习,并且如

2017-06-29 16:22:59 3994

转载 Isolation Forest算法原理详解

原文地址:http://blog.csdn.net/u013709270/article/details/73436588本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序

2017-06-29 11:05:34 2060

原创 谷歌最新开源Tensor2Tensor

最新谷歌开源了另一个功能强大的深度学习开源框架,这个开源的框架与Tensorflow结合起来可以完成更加丰富的功能。T2T is a modular and extensible library and binaries for supervised learning with TensorFlow and with support for sequence tasks. It i

2017-06-29 10:47:04 1368

原创 酒店情感分析

对于预料集,可以从这个数据堂拿数据:http://www.datatang.com/其中关于酒店情感数据分析部分:http://www.datatang.com/data/shop-page.html?k=%E9%85%92%E5%BA%97%E6%83%85%E6%84%9F对于酒店情感分析,很重要的一点就是语料库要好,同时,分词时需要的有好的情感词库,这样才能得到更好的分词结果

2017-06-27 20:49:55 3556

转载 正则表达式匹配

这次工作中,终于要用到正则表达式匹配,写一些匹配的patern,查找字符串中的某一部分。以前在学校的时候,听说过,也练习过简单的,但是后来几乎用不到,因此也就没有继续学,但是心里总是对这块不放心。这次,需要分析一批数据,发现里面除了中文,还有好多其他语言,这样严重影响分词结果,最终只能从根源,在没有分词之前,先将中文滤出来,然后再进行分词,统计词频等操作。一下有几个比较好的正则表达式文

2017-06-27 14:15:59 935

转载 文本情感分类

电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec。# -*- coding: UTF-8 -*-import pa

2017-06-26 20:04:59 8074

转载 指导计算机专业本科生开展科研的体会

指导计算机专业本科生开展科研的体会2016年5月17日 08:45 阅读 3741来源:《中国计算机学会通讯》2016年第5期《专栏》作者:刘知远  近年来,计算机领域研究人员“低龄化”现象日趋明显,国内高校越来越多的本科生加入实验室开展科研工作,并开始在计算机各方向的顶级会议甚至期刊上崭露头角。科研创新能力是高校培养学生的重要目标之一,因此培养

2017-06-26 20:00:24 1922

原创 MinGW 安装与CLion IDE环境配置

在windows上安装CLion,发现机器上没有安装任何C/C++编译器,CLion在安装之后,会推荐安装编译器,一般有MinGW和Cygwin ,关于这两个编译器,可以看知乎里说的关于这两个编译器的区别:https://www.zhihu.com/question/22137175在这个网站可以下载:https://sourceforge.net/projects/mingw/files/l

2017-06-26 19:32:08 6162

转载 25张图让你读懂神经网络架构

由于新的神经网络架构无时无刻不在涌现,想要记录所有的神经网络是很困难的事情。要把所有这些缩略语指代的网络(DCIGN,IiLSTM,DCGAN等)都弄清,一开始估计还无从下手。下表包含了大部分常用的模型(大部分是神经网络还有一些其他的模型)。虽然这些架构都是新奇独特的,但当我开始把它们的结果画下来的时候,每种架构的底层关系就会清晰。显然这些节点图并不能显示各个模型的内部工作

2017-06-24 20:18:06 23468

转载 技术博客

Auto Healing技术一般机器上线,先有注册,然后有负载均衡。用来探测应用健康的几种方法:1、使用 health check 接口。返回 200 为正常,其他 code 或者超时即为不正常。2、alimonitor 的 ssh 监控,判断是否能连上机器。3、sigma 团队在发现物理机故障时候,能发出消息。Spring Boot 定义了 Health En

2017-06-23 16:38:11 379

转载 想做数据科学家/工程师?从零开始系统规划大数据学习之路

大数据文摘作品,转载要求见文末作者 | SAURABH编译 | 张伯楠,万如苑,刘云南引言大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。目前我们面临的最大挑战就是根据我们的

2017-06-22 16:58:29 774

转载 计算广告学总结

人在屋檐下,总得低头走;拿人钱财,替人消灾。在公司打工,不得不遵守一些业务指标。优化广告效果时,总得考虑这么几个指标CTR、ROI、RPM,这三个分别从用户、广告主、平台角度做的经验式评价指标,至于这三个指标在什么程度上逼近真实最优暂且不表,先假定这三个是真实最优指标(目前没从事过SSP业务,没列CPM指标)。CTR点击率=CLICK/PVROI投资回报率=CTR*CVR*Auctio

2017-06-22 09:23:34 750

转载 Google advances AI with ‘one model to learn them all

Google quietly released an academic paper that could provide a blueprint for the future of machine learning. Called “One Model to Learn Them All,” it lays out a template for how to create a single m

2017-06-21 19:13:29 334

转载 Java Web架构知识整理——记一次阿里面试经历

“你学习一门技术的最佳时机是三年前,其次是现在。”这话从来很灵验。经过这次面试,觉得需要整理下Java Web相关的资料,以便自己提高或者更快适应可能面临的新的工作。  首先谈谈Java Web需要掌握哪些东西。这里是一些知识点的搜集,暂不做详细说明,欢迎各位博友补充指正。1.底层Java语言相关的就不说了,首先是JVM的结构和工作原理。比较重要的是Java内存模型,各种GC算

2017-06-20 21:49:55 3020

转载 What’s a Good Clickthrough Rate? New Benchmark Data for Google AdWords

https://blog.hubspot.com/agency/google-adwords-benchmark-dataAs marketers, we're always thinking about the most optimal way to target our potential customers. Trouble is, mastering Google Ad

2017-06-20 21:38:05 485

转载 Learning to Rank(LTR)

Learning to Rank(LTR)声明:本文主要参考Learning to Rank 简介、Learning to Rank小结文章。 另参考李航老师A short introduction to learning to rank一文。 对以上文章有较多引用,在此对原作者表示感谢!刚刚接触排序学习,很多问题尚不清楚,在努力学习中,如有错误欢迎指出。本文也

2017-06-20 14:49:51 656

转载 Java六条技能

一、掌握静态方法和属性 静态方法和属性用于描述某一类对象群体的特征,而不是单个对象的特征。Java中大量应用了静态方法和属性,这是一个通常的技巧。但是这种技巧在很多语言中不被频繁地使用。理解静态方法和属性对于理解类与对象的关系是十分有帮助的,在大量的Java规范中,静态方法和属性被频繁使用。因此学习者应该理解静态方法和属性。Java在方法和属性的调用上是一致的,区别只表现在声明的时候,这和c+

2017-06-20 10:40:47 332

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除