自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 收藏
  • 关注

原创 Recommender system based on hadoop

[quote]hadoop jar mahout-core-0.4-job.jar org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob -Dmapred.input.dir=input -Dmapred.output.dir=result --recommenderClassName org.apache.mahout.cf.ta...

2011-05-01 22:24:13 188

原创 hadoop 0.21.0 伪分布式环境搭建(mac雪豹系统)

1.下载hadoop包,[url]http://labs.renren.com/apache-mirror//hadoop/core/hadoop-0.21.0/hadoop-0.21.0.tar.gz[/url]2.解压 tar xzf hadoop-0.21.0.tar.gz3.进入hadoop解压后得文件夹,编辑hadoop-env.sh 指定JAVA_HOME变量,比如[cod...

2011-04-09 13:31:51 167

原创 php使用xpath抽取网页超链接

[code="java"][/code]

2010-06-07 11:45:27 678

原创 php编码转换

2010-06-07 10:05:29 117

cpp链接库设置

在linux下1.在/etc/ld.so.conf中指定连接加载的目录2.运行ldcoonf3.使用ldd 查看 目标文件的加载路径在macbook下:otool -L

2010-03-26 16:36:07 199

原创 macbook 使用感受

太爽了.支付宝可以用MSN可以用QQ可以用开发得心应手.不论是JAVA,PYTHON,C++,方便非常.最赞的是屏幕,比我用过的所用THINKPAD都好[url]htt://www.freechinatrip.com/[/url]...

2010-01-21 11:39:04 170

原创 nutchbase=nutch+hbase

当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。它的优点很明显:架构合理. 开发者是这样说的,引用自jira[url]http://issues.apache.org/jira/browse/NUTCH-650[/url]A) Why in...

2010-01-14 10:57:45 142

原创 hbase 0.20 client编程

[code="java"]import java.io.IOException;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.KeyValue;import org.apache.hadoop.hbase.client.Get;import org.apa...

2010-01-06 17:38:25 102

原创 hbase shell操作

[code="java"]bin/hbase shellcreate 'url','sohu'disable 'url' alter 'url', {NAME => '163'} enable 'url' put 'url','163','163:lady','lady.163.com' scan 'url'[/code]

2010-01-06 14:41:50 101

原创 部署单机hadoop0.20和hbase0.20测试环境

从官方网站上下载对应的版本,解压到hbase和hadoop目录下.在hadoop下面配置hadoop-env.sh配置JAVA_HOME配置conf/core-site.xml[code="java"]fs.default.namehdfs://localhost:9000[/code]配置conf/hdfs-site.xml[code="jav...

2010-01-05 15:56:56 108

T60安装苹果ideneb 10.5.7过程记录

1.准备一张ideneb 10.5.7的安装盘,我是在淘宝上买的,花了13块钱。2.T60 195143U一台,集成GMA950显卡3.像光驱安装windows一样。不过要记得抹盘,选择相应的驱动,声卡,显卡,无线(3945不能用,我换了一个无线网卡),语言包。4.完美成功。...

2009-12-18 13:13:36 325

利用neko抽取超链接及锚文本

[code="java"]import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.StringReader;import java.net.URL;import java.nio.CharBuffer;import j...

2009-12-06 20:48:20 201

使用CharBuffer和 InputStreamReader读取各种编码的网页

只要指明编码格式,就能正确的读取。[code="java"]import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.nio.CharBuffer;public class Pa...

2009-12-03 15:38:18 194

利用lucene,nekohtml,为rss新闻建立索引

[code="java"]import java.io.BufferedReader;import java.io.File;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util...

2009-12-02 12:05:15 122

使用python调用计算所分词系统ICTCLAS30

代码很简单,但我自己摸索了一下午[code="java"]#coding:gb2312from ctypes import *dll=cdll.LoadLibrary("ICTCLAS30.dll")dll.ICTCLAS_Init(c_char_p("."))lpText = u"计算所汉语词法分析系统ICTCLAS调用测试"bSuccess = dll.IC...

2009-11-21 17:47:25 228

mysql跨表更新

update softcrawl.soft_download,softcrawl.softinfo set softcrawl.soft_download.source=softcrawl.softinfo.source where softcrawl.soft_download.gameid=softcrawl.softinfo.id关键是在update里声明要更新的多个表...

2009-11-16 12:50:03 115

非负矩阵分解

[code="java"]from numpy import *from random import *def difcost(a,b): dif=0 for i in range(shape(a)[0]): for j in range(shape(a)[1]): dif+=pow(a[i,j]-b[i,j],2) ...

2009-11-08 22:18:50 143

使用java转码

[code="java"]BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream("c://summary.cvs"),"utf8")); OutputStreamWriter writer = new OutputStreamWriter(new FileOutputSt...

2009-10-27 17:39:00 90

使用lxml解析xml

[code="java"]#coding:gb2312import osimport lxmlimport lxml.etree,StringIOimport lxml.html as x if __name__ == '__main__': filelist = os.listdir("/backup/ksearch/query/videos/youku_...

2009-08-21 17:21:40 277

Java中汉字范围

java内部使用unicode编码,汉字的Unicode编码范围为\u4E00-\u9FA5 \uF900-\uFA2D,如果不在这个范围内就不是汉字。[code="java"]public static void main(String[] args) { StringBuilder sb = new StringBuilder(); for(char c='\u4E00';...

2009-08-12 10:35:47 17082

python版libsvm在windows下安装使用

使用的libsvm版本是http://www.csie.ntu.edu.tw/~cjlin/libsvm/libsvm-2.89.zippython版本是2.6解压缩libsvm后,将libsvm-2.89\windows\python目录下的svmc.pyd文件复制到C:\Python26\DLLs;将libsvm-2.89\python目录下的svm.py放到C:\Python26...

2009-08-08 20:34:41 158

拨号网路重播策略的选择

1.如果能获得相应的IP地址,就不要重播2.如果不能获得IP,只能重播3.永远不要主动close拨号连接

2009-08-06 13:46:50 112

windows下利用python拨号电信3G并获得IP地址

[code="java"]import win32rasimport osif __name__ == '__main__': params = ('USB-KEY DIAL', '#777','','ctnet@mycdma.cn', 'vnet.mobi','') fs, ret = win32ras.Dial(None, None, params, None...

2009-07-17 22:28:02 198

python 网页抓取经验

一定要设置好user-agnet 和accept[code="java"]#coding:utf-8'''Created on 2009-7-15@author: Administrator'''import urllib2import newhttplibimport lxml.html as x def getmusic(num,soc=Non...

2009-07-16 20:19:07 102

python 网页抓取(使用代理服务器),解析一例

[code="java"]#coding:utf-8'''Created on 2009-7-15@author: Administrator'''import urllib2import newhttplibimport lxml.html as x def getmusic(num,soc=None): s=num.split(':')...

2009-07-15 16:27:47 71

pycurl做https链接,免于校验的设置

[quote]curl_handle.setopt(pycurl.SSL_VERIFYHOST,0)curl_handle.setopt(pycurl.SSL_VERIFYPEER,0)[/quote]

2009-07-07 16:50:49 590

利用PIL做简单的图片数字识别

[code="java"]#coding:gbk'''Created on 2009-7-7@author: yuhai'''import StringIOimport Image,osimport editdistdic={} def readimg(imgpath): buffer=StringIO.StringIO()...

2009-07-07 16:29:50 236

pywin32编程实例

这里面技巧太多,1.使用win32的dll必须使用windll.LoadLibrary2.获得一个字符串的值c_char_p(addr).value3.wap拨号4.使用win32ras 拨号5. socket.bind[code="java"]import pycurl import StringIO import socketimport win32...

2009-07-02 16:36:58 719

原创 ubuntu移除图形界面的命令

A short command on how to change Ubuntu so that it will only start in text mode, no X11 (graphical) mode. The following removes the graphical greeter from the runlevels :sudo update-rc.d -f gdm re...

2009-06-27 13:10:33 904

jsp 使用jdbc一例

[code="java"]=0) cat="post"; if(cat.indexOf("新闻")>=0) cat="news"; if(cat.indexOf("项目申报")>=0) cat="project"; sb.append(cat);

2009-06-26 13:48:53 130

jsp中使用jdbc和dbcp一例

[code="java"][/code]

2009-06-26 13:46:52 109

MapRunnable设计一例

[code="java"]package org.apache.nutch.fetcher;import java.io.IOException;import java.util.HashSet;import java.util.Iterator;import org.apache.commons.httpclient.DefaultHttpMethodRetryHan...

2009-06-17 17:21:19 146

使用PIL和StringIO做图片resize

StringIO就是把内存里的数据封装成文件句柄[code="java"]import os, sysimport Imageimport StringIOsize = 128, 128outfile = 'D:/wallcoo-3.jpg'try: #im = Image.open('D:/wallcoo.jpg') fp=open...

2009-04-28 17:00:18 455

python中的正则表达式应用

[code="java"] f=open('wuqu.html','r') content=f.read() m=re.findall('[\w|\W]*?', content) print len(m) if m is None:return for i in range(1,len(m)): c=m[i] d=re...

2009-04-08 10:56:52 86

Tkinter图形界面设计

[code="java"]#coding=gbkfrom Tkinter import *import pycurlimport sys, re, md5, os, time, commandsimport pycurlimport cStringIO as _StringIOimport sysimport shutil, urllib, urllib2i...

2009-03-29 19:01:19 248

原创 python url编码

urllib2.quote(u'北京'.encode('utf-8'))

2009-03-29 12:07:47 74

原创 nutch搏斗之一

问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of...

2009-03-26 19:01:02 147

设计python版的爬虫

准备工作安装Python2.5安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:Content=Content.dec...

2009-03-26 10:49:22 112

原创 eclipse profile tool

http://www.eclipse.org/tptp/home/downloads/4.5.0/documents/quicktour/quick_tour.htmlEclipse Test and Performance Tools Platform

2009-03-26 10:44:01 73

python抓取

准备工作可以使用Python2.5,推荐使用2.4,因为需要兼顾wkfs的接口。安装easy_install,pycurl,lxml;建议使用firefox浏览器,可以方便的使用各种调试插件。基本知识需要了解python中unicode的原理,以便掌握GBK和UTF-8的转换方法.假设content是GBK编码,在python中,转换成UTF-8的方法如下:...

2009-03-20 09:59:49 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除