自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1950)

微软云计算技术Windows Azure专题(二):如何利用Mobile向Windows商店应用推送消息...

本文介绍了如何使用Windows Azure的Mobile Service发送推送信息Windows商店应用程序。建立一个Mobile Service的同时Azure会自动创建一个数据库。推送消息就是在对数据库这些表的插入、删除操作的同时,通过脚本语言发送先来明确一下大体上要做哪些步骤:1.注册Windows商店应用的推送通知,配置Mobile Service。2.通过代码...

2013-10-05 03:46:00 115

微软云计算技术Windows Azure专题(一):如何利用Service Bus向Windows商店应用推送消息...

本文介绍了如何使用Windows Azure的Service Bus通知中心发送推送通知Windows商店应用程序。先来明确一下大体上要做哪些步骤:1.申请一个Windows应用商店的应用。(每个应用都有自己的身份识别标识,不然Windows Azure也不知道要将应用推送给谁)2.在Windows Azure中创建一个Service Bus,然后在次Service Bus下创建一...

2013-10-05 02:44:00 130

mahout算法源码分析之Collaborative Filtering with ALS-WR (二)splitDataset 和parallelALS

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。接上篇,此篇blog分析第(1)、(2)对应的java源码,主要是splitDataset和parallelALS。(一)其中splitDataset对应的mahout中的源java文件是:org.apache.mahout.cf.taste.hadoop.als.DatasetSplitter....

2013-10-05 01:30:00 171

《简明python教程》总结(六)-- os, sys模块及其他内容

sys模块sys模块包含系统对应的功能。我们已经学习了sys.argv列表,它包含命令行参数。命令行参数#!/usr/bin/python# Filename: cat.pyimport sysdef readfile(filename):'''Print a file to the standard output.'''f = file(filename)...

2013-10-04 12:19:00 117

《简明python教程》总结(五)-- 面向对象编程,输入/输出,异常

在python中一切皆为对象。例: int为一个类,int i 中的 i为 int 类的对象/一个实例类的属性: 方法和域。 域分两种类型:属于每个对象和属于类本身。分别称为 实例变量和 类变量。类使用class关键字创建。类的域和方法被列在一个缩进块中。self类的方法与普通的函数只有一个特别的区别——它们必须有一个额外的第一个参数名称,但是在调用这个方法的时候...

2013-10-03 23:43:00 120

mahout算法源码分析之Collaborative Filtering with ALS-WR (一)实战

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。学习总是一个痛并快乐着的过程。。。今天简要介绍一下mahout中的Collaborative Filtering with ALS-WR,这个算法,你要问我这个是什么算法,我最多告诉你它是一个推荐算法,其他我也不知道。这里主要是参考这里的介绍Collaborative Filtering wi...

2013-10-03 22:01:00 98

搜索引擎–Python下开源爬虫(spider)框架scrapy的使用

主机环境:Ubuntu 13.04Python版本:2.7.4转载请标明:http://blog.yanming8.cn/archives/125——————————————————————————————————————————————————-所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一...

2013-10-03 21:26:00 102

《简明python教程》总结(四)-- 数据结构

数据结构基本上就是——它们是可以处理一些数据的结构 。或者说,它们是用来存储一组相关数据的。在Python中有三种内建的数据结构——列表、元组和字典。列表(list)列表中的项目应该包括在方括号中,这样Python就知道是在指明一个列表。列表可以进行添加、删除或是搜索列表中的项目。说列表是可变的数据类型,即这种类型是可以被改变的。常用于数据需要改变(删/增)的类型...

2013-10-03 17:48:00 65

《简明python教程》总结(三)-- 函数、模块

函数函数通过def关键字定义,参数在函数定义的圆括号对内指定,用逗号分割示例:#!/usr/bin/python# Filename: func_param.pydef printMax(a, b):if a > b:print a, 'is maximum'else:print b, 'is maximum'printMax(3, ...

2013-10-03 10:45:00 64

《简明python教程 》总结(二)-- 字符串、对象、控制流

字符串字符串是 字符的序列 。字符串基本上就是一组单词。单引号(')、双引号(") 、三引号('''或""") 、转义符(\)●单引号(') 与 双引号(") 作用相同●三引号('''或""") 利用三引号,可以指示一个多行的字符串。你可以在三引号中自由的使用单引号和双引号。例如:'''This is a multi-line string. This is the f...

2013-10-02 14:06:00 77

《简明python教程 》总结(一)--简介(特点、安装、使用)

读完了《abit of python》,打算通过5篇博文记录学习中的收获简介1.特性简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它逐渐被广泛应用于处理系统管理任务和Web编程。由于Python语言的简洁、易读以及可扩展性,在国外用Python做科学计算的研究机构日益增多。用户可以在任何计算机上免费安装Python及其绝大多数扩展库。简洁性...

2013-10-02 11:11:00 100

搜索引擎–elasticsearch python客户端pyes 建立索引和搜索

主机环境:Ubuntu 13.04Python版本:2.7.4转载请标明:http://blog.yanming8.cn/archives/118官方站点:http://www.elasticsearch.com/中文站点:http://es-cn.medcl.net/下面一段介绍引用自中文站点:好吧,假如你建了一个web站点或者是一个应用程序,你就可能会需要添加搜索功能(因为这太...

2013-10-02 00:34:00 57

搜索引擎–Python下的分词插件 jieba 结巴分词

主机平台:Ubuntu 13.04Python版本:2.7.4转载请标明:http://blog.yanming8.cn/archives/110jieba分词满足了Pyhon下对高效率高准确率进行中文分词的要求,是一款很不错的开源分词组建。并且支持繁体字和自定义短语以提高分词的准确性。分词支持三种模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子...

2013-10-01 00:30:00 73

Python的字典操作

Python的字典操作Python提供了多种应用于字典的操作。因为字典为容器,内建len函数可以将字典当作单一参数使用听切返回字典对象中项目(键/值对)的数目。字典会员在Python2.2以及后面版本,D中的k运算符检测是否对象k是字典D中的键。如果是返回True如果不是返回False。相似的,索引一个字典字典D中的值与相关的键k被索引表示为:D[k]。索引字典没有的键会引...

2013-09-30 15:46:00 52

搜索引擎–Python文本文件分割、PyLucene建立索引和索引搜索

主机平台:Ubuntu 13.04Python版本:2.7.4PyLucene版本:4.4.0原创作品,转载请标明:http://blog.yanming8.cn/archives/108最近想使用Python来做一个小的搜索引擎,一来是强化学习一下Pyhton语言,而来是学习一下搜索引擎实现原理。在网上搜索了好久,网上的资料和书籍都是使用JAVA平台下的Lucene,而PyLu...

2013-09-29 17:28:00 220

mahout random forests分布式策略

关于mahout中的random forests算法在前面已经分析过,这里简要说下其并行策略。刚开始的时候,我以为这个算法好像没啥并行的地方,一开始就是对全部原始数据进行分析,也没有对原始数据进行分片。然后它的job任务也只有一个mapper,这样如何才能多建立几个mapper?然后这样才能达到几个节点并行吧(一个节点计算一个mapper,这样效率才高过一个节点计算多个mapper)。但是如果...

2013-09-29 01:00:00 82

大端法与小端法简介及应用

数据在 内存 中的 存储顺序 都是 从 低地址 向 高地址 存储的 (首地址 指 编号较少的 地址编号)例 存储 4个char (a1, a2, a3, a4),则 第一个到 第四个 所占的 存储空间地址 依次为 0x101, 0x102, 0x103, 0x104大端法 ,小端法 指的是 多字节的数据(int,float)在内存中 所占空间的 地址顺序如 x (int...

2013-09-28 17:16:00 57

Linux安装配置Pylucene

主机环境:Ubuntu 13.04Python版本:2.7.4Pylucene版本:4.4.0-1setuptools版本:1.1.6JDK版本:1.6.0_26原创作品,转载请标明http://blog.yanming8.cn/archives/1031、 首先安装JDK,这里不再赘述。2、 安装setuptools下载地址:https://pypi.python.org...

2013-09-27 23:07:00 62

Linux文本处理—awk gawk命令的使用

AWK 是一种文本处理和模式匹配语言,所以它通常称为数据驱动的语言,程序语句描述需要进行匹配和处理的输入数据,而不是程序操作步骤的序列,在许多语言中都是这样的。AWK 程序在其输入数据中搜索包含模式的记录、对该记录执行指定的操作,直到程序到达输入的末尾。AWK 程序擅长于处理数据库和表型数据,如从多个数据集中提取一些列、建立报表或分析数据。事实上,AWK 适合于编写短小的、一次性程序,以执行一些灵...

2013-09-27 23:06:00 99

Linux文本处理–sed命令编辑器

sed编辑器–Stream editor(流编辑器),相对于交互式编辑器如vim无法进行人工交互,需要根据在编辑器处理数据之前事先提供的规则集编辑数据流。sed编辑器可以根据输入命令行的命令或者存储在文本文件中的命令处理数据。每次从输入读取一行数据,将数据与编辑器提供的命令进行匹配,修改数据流中的数据,然后将心数据输入到stdout。处理完数据流中所有的数据行之后,流编辑器停止。正是由于按...

2013-09-27 23:05:00 51

easyhadoop初识以及各种问题

版本:easyhadoop 1.2.1,操作系统:Centos 6.4;首先,我要说的是要用对版本,这点很重要。我使用ubuntu12.04 64bit 的虚拟机是不行的,安装直接报错。所以就下载了centos的iso,好像最新的比较好找,所以就下载了6.4的。下面就一步一步来看我的安装吧:1.首先vmware虚拟机安装centos6.4,选择nat网络连接方式。安装完成后,修改ip,固定...

2013-09-26 19:35:00 33

mahout源码分析之Decision Forest结束篇

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。Mahout系列之Decision Forest写了几篇,其中的一些过程并没有详细说明,这里就分析一下,作为Decision Forest算法系列的结束篇。主要的问题包括:(1)在Build Forest中分析完了Step1Mapper后就没有向下分析了,而是直接进行TestForest的分析了,...

2013-09-25 20:57:00 82

mahout源码分析之Decision Forest 三部曲之三TestForest

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。首先贴上调用TestForest的代码(win7下面myeclipse调用TestForest,这里要设置Configuration,所以不能直接TestForest.main()来调用):package mahout.fansy.partial.test;import org.apach...

2013-09-25 00:47:00 54

Expected authority at index 7: hdfs://

hadoop版本:1.0.4今天在跑TestForest的时候,居然出现了这个问题:Exception in thread "main" java.lang.IllegalArgumentException: Expected authority at index 7: hdfs:// at java.net.URI.create(URI.java:859) at org.apac...

2013-09-25 00:08:00 262

mahout源码分析之Decision Forest 三部曲之二BuildForest(3)Step1Mapper(3)

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。接上篇,先来说说上篇最后的bestIg和bestIndex的求法。在说这个前,要首先明确一个数组的熵的求法,按照mahout中的源码针对这样的一个数组a=[1,3,7,3,0,2]其熵为:设sum=1+3+7+3+0+2,则其中pi对应于1/sum、3/sum、7/sum、3/sum、2/su...

2013-09-24 12:37:00 50

mahout源码分析之Decision Forest 三部曲之二BuildForest(3)Step1Mapper(2)

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。接上篇,分析到OptIgSplitl类的computeSplit函数里面的numbericalSplit函数,看这个函数的输入参数data和attr,应该是针对data计算出一个和attr相关的值而已。往下看double[] values = sortedValues(data, attr); ,...

2013-09-24 00:55:00 63

mahout源码分析之Decision Forest 三部曲之二BuildForest(3)Step1Mapper(1)

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。今天到BuildForest的主要Mapper操作,前面也说到BuildForest主要的操作都在Mapper里面,而reducer是没有的。本篇介绍其Mapper,Step1Mapper。首先贴上其仿制代码,如下:package mahout.fansy.partial;import j...

2013-09-23 21:24:00 87

hadoop配置自动化之一ssh自动化

此篇博客参考:SSH无密码登录-多节点自动化部署SHELL篇。测试环境:ubuntu12.04.2 server 64bit 、expect version 5.45、GNU bash, version 4.2.24(1)-release (x86_64-pc-linux-gnu)说明:hadoop自动化配置出来的结果是:整个集群一个namenode、一个secondary、一个JobTr...

2013-09-23 17:20:00 74

mahout源码分析之Decision Forest 三部曲之二BuildForest(2)小插曲

尼玛,好坑呀!昨天遇到的问题原来是找错包了,那个Step1Mapper.class 同时在mahout-core-0.7.jar mahout-core-0.7-job.jar mahout-examples-0.7-job.jar 三个包中,但是用到的只是mahout-core-0.7.jar中的Step1Mapper.class,所以只用替换mahout-core-0.7.jar中相应的...

2013-09-22 22:25:00 68

mahout源码分析之Decision Forest 三部曲之二BuildForest(1)

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。BuildForest是在mahout-examples-0.7-job.jar包的org\apache\mahout\classifier\df\mapreduce 路径下。直接运行该类,可以看到该类的使用方式:Usage: ...

2013-09-21 23:56:00 101

Exception in thread "main" java.io.IOException: Failed to set permissions of path

在跑BuildForest的时候,编写了下面的程序:package test.breiman;import org.apache.mahout.classifier.df.mapreduce.BuildForest;/** * BuildForecast测试类 * @author fansy */public class BuildForestFollow { public...

2013-09-20 17:57:00 99

mahout源码分析之Decision Forest 三部曲之一Describe

Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。Mahout中实现决策树算法的有两个(quick start),分别是Partial Implementation和Breiman Example,可以点击链接到相应的网页查看其官方实例。其中Breiman Example是单机版的,而Partial Implementation是可以使用ma...

2013-09-20 07:44:00 69

mahout贝叶斯算法开发思路(拓展篇)2

如果想直接下面算法调用包,可以直接在mahout贝叶斯算法拓展下载,该算法调用的方式如下:$HADOOP_HOME/bin hadoop jar mahout.jar mahout.fansy.bayes.BayerRunner -i hdfs_input_path -o hdfs_output_path -scl : -scv ,调用参数如下:usage: <com...

2013-09-14 14:52:00 59

mahout贝叶斯算法开发思路(拓展篇)1

首先说明一点,此篇blog解决的问题是就下面的数据如何应用mahout中的贝叶斯算法?(这个问题是在上篇(。。。完结篇)blog最后留的问题,如果想直接使用该工具,可以在mahout贝叶斯算法拓展下载):0.2 0.3 0.4:10.32 0.43 0.45:10.23 0.33 0.54:12.4 2.5 2.6:22.3 2.2 2.1:25.4 7.2 7.2:35.6 ...

2013-09-14 06:28:00 66

动态链接库dll的 静态加载 与 动态加载

dll 两种链接方式: 动态链接和静态链接(链接亦称加载)动态链接是指在生成可执行文件时不将所有程序用到的函数链接到一个文件,因为有许多函数在操作系统带的dll文件中,当程序运行时直接从操作系统中找。而静态链接就是把所有用到的函数全部链接到exe文件中。动态链接是只建立一个引用的接口,而真正的代码和数据存放在另外的可执行模块中,在运行时再装入; 而静态链接是把所有...

2013-09-10 21:29:00 139

Twenty Newsgroups Classification实例任务(完结篇)

Twenty Newsgroups Classification实例任务跑的是哪个算法?就是bayesian,也就是我们说的贝叶斯,首先不管你是否了解贝叶斯算法(说实话,我真的不知道这个算法的原理),如果你看了这篇博客,至少应该了解如何对数据 进行处理,然后就可以分类了,不管它是啥算法,好,来开始。接上篇系列blog: Twenty Newsgroups Classification实例任务之...

2013-09-10 21:21:00 132

Hadoop实现AbstractJob简化Job设置

在hadoop中编写一个job一般都是采用下面的方式:Job job=new Job();job.setXxx();...这样感觉代码很多,而且参数还不好控制。比如,我想对输入的参数进行控制,还要自己写一些控制解析之类的代码,如下:if(args.length!=2){ System.err.out("Usage<input> <output>")...

2013-09-10 14:30:00 115

java matlab混合编程之返回值Struct类型

java matlab混合编程的时候当返回值是Struct类型(matlab中的返回类型)如何来取得(java中)其值?上网找,看到这个网页:http://www.mathworks.cn/cn/help/matlab/matlab_external/passing-data-to-a-java-method.html,上面说Struct类型不支持;如下图:然后我就没办法了,但是获得的...

2013-09-09 18:51:00 84

VS2008常见编译错误(总结篇)

错误1:fatal error C1853: “Debug\mydll.pch”预编译头文件来自编译器的早期版本项目中混合了 .cpp 和 .c 文件时,编译器会对它们采取不同的编译方式(主要是因为对函数声明的处理方式不同),因而不能共用一个预编译头文件。在 VC++ 中,默认的预编译头文件是针对 C++ 的 (stdafx.h 和 stdafx.cpp),当然也可以创建针对 C 的预编译...

2013-09-09 08:31:00 44

Hadoop Writable深度复制及读取任意<key,value>序列文件

上次留了一个问题如何实现Writable的深度复制,上网找了下,还真有这个类,叫做WritableDeepCopier,可以在http://mvnrepository.com/artifact/org.apache.crunch/crunch/0.5.0-incubating进行下载;下载导入,然后编程调用,但是如何调用?网上找了很多,但是都没有例子,哎,还是自己摸索吧,结果搞了一点时间还是不行,...

2013-09-07 11:10:00 42

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除