akr2704-CSDN博客

转载 afdadadfadrqegfddddg3r

afdadfadfadafdadasfdsaf转载于:https://www.cnblogs.com/xiaoxuch-zhl/p/6638269.html

2017-03-29 10:15:00 172

转载关于Python中的yield

关于Python中的yieldhttp://www.cnblogs.com/tqsummer/archive/2010/12/27/1917927.htmlhttp://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/一、迭代器(iterator)在Python中，for循环可以用于Pytho...

2017-03-28 22:59:00 125

转载 5W1H分析法和5W2H分析法

5W1H分析法也称六何分析法，是一种思考方法，也可以说是一种创造技法。是对选定的项目、工序或操作，都要从原因（WHY）、对象（WHAT）、地点（WHERE）、时间（WHEN）、人员（WHO）、方法（HOW）等六个方面提出问题进行思考。这种看似很可笑、很天真的问话和思考办法，可使思考的内容深化、科学化。具体见下表：　表：5W1H分析法　　　　对象　　公司生产什么产品？车间生...

2014-01-27 10:56:00 2484

转载 Python中的Sets数据结构

Python的set和其他语言类似，是一个无序不重复元素集，基本功能包括关系测试和消除重复元素。集合对象支持union(联合)，intersection(交)，difference(差)和sysmmetric difference(对称差集)等集合运算。要创建集合，可使用set()函数并像下面这样提供一系列的项：s = set([3,5,9,10]) #创建一...

2014-01-23 18:10:00 138

转载程序员的困境 - R中国用户组-炼数成金

原文：http://www.oschina.net/news/43389/the-plight-of-programmer在大型公司中不能腐蚀自己的学习能力和时间能力。最近我为一个内核程序员的职位面试了十几个候选人。这些候选人都来自一些不错的大公司，这些公司在芯片或嵌入式操作系统领域十分有名。这些候选人大多声称自己在内核方面有着十年的在职工作经验。他们的简历看起来非常耀眼——各种相关的项...

2013-12-13 15:32:00 94

转载 linux中获取系统时间 gettimeofday函数

linux的man页中对gettimeofday函数的说明中，有这样一个说明：$ man gettimeofdayDESCRIPTION The functions gettimeofday and settimeofday can get and set the time as well as a timezone. The tv argument i...

2013-12-09 15:07:00 364

转载 Vim 模式及常用命令整理

VIM 命令以:和/开头的命令都有历史纪录，可以首先键入:或/然后按上下箭头来选择某个历史命令。vim的模式基本上可以分为3种模式，分别是命令模式（command mode）、插入模式（Insert mode）和底行模式（last line mode），下图所示为Vim各种模式相互转换的关系图。命令...

2013-09-23 15:47:00 99

转载使用stringstream进行类型转换与字符串分割

C++标准库中的<sstream>提供了比ANSI C的<stdio.h>更高级的一些功能，即单纯性、类型安全和可扩展性。如果你已习惯了<stdio.h>风格的转换，也许你首先会问：为什么要花额外的精力来学习基于<sstream>的类型转换呢？也许对下面一个简单的例子的回顾能够说服你。假设你想用sprintf()函数将一个变量从int类...

2013-07-25 21:42:00 125

转载 Hadoop MapReduce 上利用Lucene实现分布式索引--测试主类

　　该测试代码对应了之前的文章Hadoop MapReduce 上利用Lucene实现分布式索引　　之前在完成一项任务时，需要检索几十万个questionID，提取对应的内容。这不能用简单的顺序查找或者折半查找实现。所以我设计了QuestionIndexMR，主要目的是根据questionID快速提取其所对应的value值（这里的设计相当于使用文件名，将文件内容提取出来。但是如果做...

2013-05-16 21:26:00 103

转载日志分析方法概述

转自http://stblog.baidu-tech.com/?p=310　　日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同，很难一概而论。本文讨论的日志处理方法中的日志，仅指Web日志。其实并没有精确的定义，可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat...

2012-08-12 13:46:00 146

转载 Doclist压缩方法简介

转自： http://www.searchtb.com/2011/07/doclist-compress.html本文是作者在学习doclist压缩时的一点总结，希望以尽可能简单明了的方式描述各个算法的思想和适用场景，帮助同学们理解和比较。本文并不涉及具体的算法实现，代码请大家自行google。这里需要强调的是“所谓的改进顺序”只是作者yy出来方便理解记忆，并不反应真实的压缩...

2012-08-12 13:29:00 98

转载以求医为例谈搜索引擎排序算法的基础原理

本文转自百度搜索研发部官方博客http://stblog.baidu-tech.com/?p=121　　我们向搜索引擎提交一个查询，搜索引擎会从先到后列出大量的结果，这些结果排序的标准是什么呢？这个看似简单的问题，却是信息检索专家们研究的核心难题之一。怎样的医生呢？假设我只有三种选择：　　A医生，既治眼病，又治胃病；　　B医生，既治牙病，又治胃病，还治眼病；　　C医生，专...

2012-08-12 13:26:00 65

转载 KNN算法改进：泛化实例算法(Generalized Instance Set Algorithm,GIS)

泛化实例算法(GIS)　　GIS算法认为：对于给定的一个category，positive实例中所蕴含的规则(regularity)比negative实例中所蕴含的规则更明显；从一组相似的positive实例中推知的模式或分类信息要更准确，而离这些positive实例比较接近的negative更可能是noise。根据这一思想，GIS算法试图构造出一个基于training集合的泛化实例...

2012-08-12 09:22:00 282

转载高性能文本分类算法：DragPushing

　　文本分类算法可以大致总结如下：　　高精度算法：SVM、Boosting。这类算法的分类精度很高，但训练与分类时间很长，往往难以满足大规模问题的需要；　　高速度算法：Centroid、Rocchio、Winnow等。这类算法的训练与分类时间与问题的规模成线性关系，但分类精度往往不太理想。　　DragPushing策略的目标是得到一种既好又快的文本分类算法：精度可以与SVM相...

2012-08-10 11:52:00 134

转载 K近邻算法：样本剪辑和压缩方法

　　在使用K近邻算法进行分类时，对于一个待分类的样本，需要计算其与训练集中所有样本的距离(首先要存储训练集中所有的样本)，并选择距离最小的前k个来进行分类决策。随着训练集中的样本数的增大，K近邻算法的计算成本将急剧增大。目前有两种减少训练集样本数的方法：剪辑方法和压缩方法。前者通过删除错误分类的样本达到压缩训练集的效果，后者的目的是在不改变分类决策边界的前提下减少每一个类的样本数目。...

2012-08-09 12:37:00 1500

转载中英文字符识别问题

小程序1. 统计中文汉字的多少public static void main(String[] args) { int count = 0; String regEx = "[\\u4e00-\\u9fa5]"; String str = "中文fdas "; Pattern p = Pattern.compile(regEx); Matcher m =...

2012-08-08 19:26:00 186

转载开源集群计算环境Spark

　　最近使用MapReduce进行数据处理时，切实体会到了其不足的地方。由于要对模型进行参数优化，需要迭代多次求精。这本是机器学习算法中非常常见的操作，但是使用MapReduce却非常难以快速高效的完成。于是将目光转向了另一个开源集群计算环境Spark。http://www.oschina.net/p/spark-project　　Spark 是一种与Hadoop相似的...

2012-08-08 15:33:00 161

转载 Hadoop MapReduce 上利用Lucene实现分布式检索

前一篇文章(Hadoop MapReduce 上利用Lucene实现分布式检索)中介绍了如何在HDFS上利用建立分布式索引，本文将举例说明如何使用Lucene进行分布式的检索。package hdfs.luceneSearch;import java.io.IOException;import org.apache.lucene.document.Document...

2012-08-08 11:53:00 191

转载 Hadoop MapReduce 上利用Lucene实现分布式索引

　　在HDFS上处理数据时，为快速访问，有时候需要对数据进行分布式索引。很不巧，我们所熟悉的Lucene并不支持HDFS上的索引操作。Lucene中的Document不支持MapReduce输出类型的Writable接口，因此我们无法直接使用Document作为MapReduce的输出类型。虽然Nutch这一搜索爬虫基于Lucene实现HDFS上建立和维护索引的功能，但是在Nutch中对...

2012-08-08 11:29:00 111

转载 Hadoop MapReduce 自定义数据类型

关于自定义数据类型，http://book.douban.com/annotation/17067489/一文中给出了一个比较清晰的说明和解释。在本文中，将给出一个简单的自定义的数据类型例子。我曾使用该自定义的数据类型在HDFS上构建Lucene索引。package hdfs.document;import java.io.DataInput;import ja...

2012-08-08 10:49:00 112

转载 Lucene 3.4.0 的配置

Lucene 配置下载地址：http://www.apache.org/dyn/closer.cgi/lucene/java/ ，这里下载的是Lucene 3.4.0版本；配置好Java环境，此处略去配置过程。我的jdk安装位置是C:\Program Files\Java\jdk1.7.0_01；解压下载的Lucene文件，可以发现lucene-core-3.4.0.ja...

2011-12-25 22:23:00 108

转载离人眼里的百度百态——献给过往

　原文网址：http://blog.sina.com.cn/s/blog_5d9fd14a0100c2ex.html 在上海待了半年，仍然不怎么能适应外滩的冷。　　本来要睡了，听以前同事说robin在上海参加一个节目，同时举行的还有百度的一个庆典，于是打开了电视。　　依然很俊朗，他的每一次出现总能牵动媒体的视线。无论是掌声还是漫骂，面对镜头都要笑...

2011-10-28 23:43:00 230

转载 Kolmogorov–Smirnov test 柯尔莫哥洛夫-斯米尔诺夫检验

Kolmogorov–Smirnov test：柯尔莫哥洛夫-斯米尔诺夫检验(以下简称K-S检验)是用累计次数或累计频率来判断两组数据之间是否存在显著差异的方法。它是将需要做统计分析的数据和另一组标准数据进行对比，求得它和标准数据之间的偏差的方法。Matlab中的两个函数调用：kstest：如kstest(x),x为一向量，则将检查x是否属于标准正态分布；其它调用...

2011-10-22 13:00:00 2057

akr2704的博客