自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

转载 调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步

众包已经成为当今获取标记数据的基本手段。我们可以通过众包在短时间内以极为低廉的价格获取大量的标记数据。然而,通过众包获取的数据通常质量不高。这有两方面的原因:一是服务于众包平台的数据标记员通常缺乏相应的领域知识;二是众包平台没有有效的奖赏机制激励数据标记员提供高质量的工作。此报告将总结微软雷德蒙研究院过去几年在这个基本的众包问题的研究与工程上的进展。具体来说,我们的工作主要集中在群体智慧与激励机制

2017-06-30 16:57:03 288

原创 Python 图像处理第三方库

一般情况下,opencv是图像处理比较理想的选择,但是在一定情况下,安装opencv是需要花费一点时间和力气,但是这个库的确很强大(虽然并没有完全长期使用这个库,但是在各个系统上都安装过,编译过,一个比较好的途径是下载第三方编译好的opencv库,可以拿来直接安装使用)。这里再推荐一个比较好的Python第三方图像库PIL,我看了这个库的官网,感觉已经不再更新了,但是fork了这个库的

2017-06-30 09:55:16 4995

原创 机器学习大规模学习平台架构

对于已有的开源的机器学习框架,很多都是单机环境下部署的,但是对于大公司层面的机器学习的应用需求,简单的单机,分布式spark机器学习平台很难满足公司的大数据应用需求,因为不仅要求具有正确性,还要求高效性和稳定性。这里面存在很多的问题,比如模型如何在多台机器上跑,参数如何分布在多台服务器上,构成parameter server (google提出的),同样的,这些参数如何时时的更新,学习,并且如

2017-06-29 16:22:59 3994

转载 Isolation Forest算法原理详解

原文地址:http://blog.csdn.net/u013709270/article/details/73436588本文只介绍原论文中的 Isolation Forest 孤立点检测算法的原理,实际的代码实现详解请参照我的另一篇博客:Isolation Forest算法实现详解。       或者读者可以到我的GitHub上去下载完整的项目源码以及测试代码(源代码程序

2017-06-29 11:05:34 2060

原创 谷歌最新开源Tensor2Tensor

最新谷歌开源了另一个功能强大的深度学习开源框架,这个开源的框架与Tensorflow结合起来可以完成更加丰富的功能。T2T is a modular and extensible library and binaries for supervised learning with TensorFlow and with support for sequence tasks. It i

2017-06-29 10:47:04 1367

原创 酒店情感分析

对于预料集,可以从这个数据堂拿数据:http://www.datatang.com/其中关于酒店情感数据分析部分:http://www.datatang.com/data/shop-page.html?k=%E9%85%92%E5%BA%97%E6%83%85%E6%84%9F对于酒店情感分析,很重要的一点就是语料库要好,同时,分词时需要的有好的情感词库,这样才能得到更好的分词结果

2017-06-27 20:49:55 3556

转载 正则表达式匹配

这次工作中,终于要用到正则表达式匹配,写一些匹配的patern,查找字符串中的某一部分。以前在学校的时候,听说过,也练习过简单的,但是后来几乎用不到,因此也就没有继续学,但是心里总是对这块不放心。这次,需要分析一批数据,发现里面除了中文,还有好多其他语言,这样严重影响分词结果,最终只能从根源,在没有分词之前,先将中文滤出来,然后再进行分词,统计词频等操作。一下有几个比较好的正则表达式文

2017-06-27 14:15:59 934

转载 文本情感分类

电影文本情感分类Github地址Kaggle地址这个任务主要是对电影评论文本进行情感分类,主要分为正面评论和负面评论,所以是一个二分类问题,二分类模型我们可以选取一些常见的模型比如贝叶斯、逻辑回归等,这里挑战之一是文本内容的向量化,因此,我们首先尝试基于TF-IDF的向量化方法,然后尝试word2vec。# -*- coding: UTF-8 -*-import pa

2017-06-26 20:04:59 8074

转载 指导计算机专业本科生开展科研的体会

指导计算机专业本科生开展科研的体会2016年5月17日 08:45 阅读 3741来源:《中国计算机学会通讯》2016年第5期《专栏》作者:刘知远  近年来,计算机领域研究人员“低龄化”现象日趋明显,国内高校越来越多的本科生加入实验室开展科研工作,并开始在计算机各方向的顶级会议甚至期刊上崭露头角。科研创新能力是高校培养学生的重要目标之一,因此培养

2017-06-26 20:00:24 1922

原创 MinGW 安装与CLion IDE环境配置

在windows上安装CLion,发现机器上没有安装任何C/C++编译器,CLion在安装之后,会推荐安装编译器,一般有MinGW和Cygwin ,关于这两个编译器,可以看知乎里说的关于这两个编译器的区别:https://www.zhihu.com/question/22137175在这个网站可以下载:https://sourceforge.net/projects/mingw/files/l

2017-06-26 19:32:08 6162

转载 25张图让你读懂神经网络架构

由于新的神经网络架构无时无刻不在涌现,想要记录所有的神经网络是很困难的事情。要把所有这些缩略语指代的网络(DCIGN,IiLSTM,DCGAN等)都弄清,一开始估计还无从下手。下表包含了大部分常用的模型(大部分是神经网络还有一些其他的模型)。虽然这些架构都是新奇独特的,但当我开始把它们的结果画下来的时候,每种架构的底层关系就会清晰。显然这些节点图并不能显示各个模型的内部工作

2017-06-24 20:18:06 23465

转载 技术博客

Auto Healing技术一般机器上线,先有注册,然后有负载均衡。用来探测应用健康的几种方法:1、使用 health check 接口。返回 200 为正常,其他 code 或者超时即为不正常。2、alimonitor 的 ssh 监控,判断是否能连上机器。3、sigma 团队在发现物理机故障时候,能发出消息。Spring Boot 定义了 Health En

2017-06-23 16:38:11 378

转载 想做数据科学家/工程师?从零开始系统规划大数据学习之路

大数据文摘作品,转载要求见文末作者 | SAURABH编译 | 张伯楠,万如苑,刘云南引言大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。这正是我想要撰写本文的原因。本文将为你开始学习大数据的征程以及在大数据产业领域找到工作指明道路,提供帮助。目前我们面临的最大挑战就是根据我们的

2017-06-22 16:58:29 774

转载 计算广告学总结

人在屋檐下,总得低头走;拿人钱财,替人消灾。在公司打工,不得不遵守一些业务指标。优化广告效果时,总得考虑这么几个指标CTR、ROI、RPM,这三个分别从用户、广告主、平台角度做的经验式评价指标,至于这三个指标在什么程度上逼近真实最优暂且不表,先假定这三个是真实最优指标(目前没从事过SSP业务,没列CPM指标)。CTR点击率=CLICK/PVROI投资回报率=CTR*CVR*Auctio

2017-06-22 09:23:34 750

转载 Google advances AI with ‘one model to learn them all

Google quietly released an academic paper that could provide a blueprint for the future of machine learning. Called “One Model to Learn Them All,” it lays out a template for how to create a single m

2017-06-21 19:13:29 334

转载 Java Web架构知识整理——记一次阿里面试经历

“你学习一门技术的最佳时机是三年前,其次是现在。”这话从来很灵验。经过这次面试,觉得需要整理下Java Web相关的资料,以便自己提高或者更快适应可能面临的新的工作。  首先谈谈Java Web需要掌握哪些东西。这里是一些知识点的搜集,暂不做详细说明,欢迎各位博友补充指正。1.底层Java语言相关的就不说了,首先是JVM的结构和工作原理。比较重要的是Java内存模型,各种GC算

2017-06-20 21:49:55 3020

转载 What’s a Good Clickthrough Rate? New Benchmark Data for Google AdWords

https://blog.hubspot.com/agency/google-adwords-benchmark-dataAs marketers, we're always thinking about the most optimal way to target our potential customers. Trouble is, mastering Google Ad

2017-06-20 21:38:05 485

转载 Learning to Rank(LTR)

Learning to Rank(LTR)声明:本文主要参考Learning to Rank 简介、Learning to Rank小结文章。 另参考李航老师A short introduction to learning to rank一文。 对以上文章有较多引用,在此对原作者表示感谢!刚刚接触排序学习,很多问题尚不清楚,在努力学习中,如有错误欢迎指出。本文也

2017-06-20 14:49:51 656

转载 Java六条技能

一、掌握静态方法和属性 静态方法和属性用于描述某一类对象群体的特征,而不是单个对象的特征。Java中大量应用了静态方法和属性,这是一个通常的技巧。但是这种技巧在很多语言中不被频繁地使用。理解静态方法和属性对于理解类与对象的关系是十分有帮助的,在大量的Java规范中,静态方法和属性被频繁使用。因此学习者应该理解静态方法和属性。Java在方法和属性的调用上是一致的,区别只表现在声明的时候,这和c+

2017-06-20 10:40:47 332

原创 python 统计

今天找到了一个Python的第三方库,pymc,这里面很详细的介绍了如果通过编程来实现统计中的方法,相信通过使用这个库,可以更进一步的理解统计学知识。

2017-06-15 18:02:11 397

转载 Tensorflow学习笔记1:Get Started

关于Tensorflow的基本介绍Tensorflow是一个基于图的计算系统,其主要应用于机器学习。从Tensorflow名字的字面意思可以拆分成两部分来理解:Tensor+flow。Tensor:中文名可以称为“张量”,其本质就是任意维度的数组。一个向量就是一个1维的Tensor,一个矩阵就是2维的Tensor。Flow:指的就是图计算中的数据流。当我们想要使用T

2017-06-13 15:45:43 498

转载 Tensorflow学习笔记2:About Session, Graph, Operation and Tensor

简介上一篇笔记:Tensorflow学习笔记1:Get Started 我们谈到Tensorflow是基于图(Graph)的计算系统。而图的节点则是由操作(Operation)来构成的,而图的各个节点之间则是由张量(Tensor)作为边来连接在一起的。所以Tensorflow的计算过程就是一个Tensor流图。Tensorflow的图则是必须在一个Session中来计算。这篇笔记来大致介绍

2017-06-13 13:32:10 443

原创 课程

有时候需要看一些好的书,要不感觉自己的脑子都不转了,一定要定时的看一些烧脑的资料。但也不能一直掉入到研究高深的理论中,因为这样会无法落地,一定要都结合起来。http://blog.sciencenet.cn/blog-752541-965372.htmllarry wasserman blog

2017-06-12 17:40:08 292

原创 统计学 假设检验的完整步骤

确定原假设和备选假设确定统计量写出拒绝域代值进去验证检验并得出结论

2017-06-12 11:27:55 19043

原创 深度学习python库安装经验,Windows下安装Anaconda3 pycharm tensorflow keras theano中遇到的问题

一般在windows上安装python,可以有2种方式(我目前只使用这两种),一种是安装原生态的python2, python3。但是这样存在一个问题,有很多库没有安装,在安装其他的第三方库时,还需要不断的添加其他的库,有很多依赖,有许多不方便(当然,如果你对各种库的依赖很熟悉,那可以安装精简版的mini Conda)。另外一种方式是安装完整版的AnaConda,这是一个很全的库,这个库里几乎拥有

2017-06-12 11:02:06 3323

原创 P-Value检验和假设检验

看了一篇很好的解释p-value的文章,其中包括显著性单侧,双侧检验,讲的很通俗易懂!假设检验是推断统计中的一项重要内容。用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P 值( P-Value,Probability,Pr),P 值是进行检验决策的另一个依据。P 值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P 

2017-06-11 17:32:18 2436

转载 统计中的p-value检验

最近和一个老同学讨论统计中的p-value检验问题,其中涉及到为什么需要用p-value来做假设检验的判断依据,上网查到了一个很好的例子:教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上,然后他们叫来了他们的小伙伴小花同学。他们对小花说:“小花,我们来玩个猜猜猜的游戏吧,你在这个箱子里摸5次球,每次摸完都要放回去再摸下一次,然后你猜里面的白球和黑球是不是一样多。”,小花就

2017-06-11 17:15:58 4199 2

转载 面试经验

一面 基础知识 11号当天下午就进行了面试,有了上一次的教训,这一次行云流水,面了40多分钟,几乎所有问题都对答如流。放下电话那一刻,我心里100%的自信这一次一定能通过。事实也是如此,一面面试官评价很高,组长准备安排第二次面试,但是我的简历当时被微信锁定了,需要等到那边解锁才能进行下一步面试(面试前还征询了我的意愿,因为我工作志愿地点选择的是广州,怕我不愿意去深圳)。 二面 岗位

2017-06-10 19:28:41 750

转载 Python读写txt文本文件的操作方法全解析

这是一篇比较好的,较全面的介绍python处理txt文件的文章: http://www.jb51.net/article/87398.htm

2017-06-08 10:21:57 4048

原创 几个概念要弄清楚-python(matlab) axis, standard deviation

无论在学习什么东西的过程中,扩宽眼界时非常重要,这样会让自己胸有成竹,知道自己走到了哪里,接下来往哪里走,会遇到哪些问题需要攻破。但是在了解了广度之后,对一个问题的深入的研究,也需要重视,最关键的是最基础的概念,一定要弄明白,因为只有这些才会支撑你走的更远。首先对于python,matlab中,axis = 0, axis = 1(python),axis = 1, axis = 2(

2017-06-06 09:01:01 1348

转载 ODPS技术架构及应用实践

摘要:ODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架。本文从ODPS面临的挑战、技术架构、Hadoop迁移到ODPS、应用实践注意点等方面带领我们初步了解了ODPS的现状与前景。初识ODPSODPS是分布式的海量数据处理平台,提供了丰富的数据处理功能和灵活的编程框架,主要的功能组件有如下几个。Tunnel服务:数据进出ODPS的唯一通道

2017-06-05 22:50:59 613

转载 爬虫 Python爬虫利器二之Beautiful Soup的用法

上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。1. Beautiful So

2017-06-05 17:19:41 357

转载 (转载潘老师的博文)潘爱民:我只是个技术爱好者

潘爱民,国内知名IT专家,2001年获得微软亚洲研究院“微软学者”称号,2002年获得北大优秀教学奖,著有《Windows内核原理与实现》《Visual C++技术内幕》《COM原理与应用》等书,曾在微软亚洲研究院从事系统与安全方面的研究工作,被媒体称为“中国最熟悉windows内核的人”,也被许多程序员奉之为神。2010年末,他离开微软,加盟盛大网络,负责创新院一项重点战略方向,并担任集团COO

2017-06-05 15:46:55 626

转载 ROC和AUC介绍以及如何计算AUC

ROC曲线和AUC曲线在机器学习中应用非常之多,这两条曲线作为评价模型在数据上表现的好坏程度是十分关键的,因此需要很好的理解这两条曲线。ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如

2017-06-05 08:51:28 440

转载 混淆矩阵,机器学习评价准则,ROC曲线-阈值评价标准

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近

2017-06-05 08:32:09 3002

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除