自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创

<br /><br /> <br />12道经典川菜做法精选<br />煮鱼]         材料:3斤左右的白鲢1条,豆芽,大葱,干辣椒,泡椒,花椒,姜,蒜,鸡精,豆粉,料酒,盐,豆瓣         做法:       1、将鱼杀好洗净,片成鱼片,鱼排剁成块状。     2、将鱼片用少许盐、料酒、生粉拌匀,码味30分钟。     3、锅内倒入少量植物油,将豆芽炒至7成熟,起锅,铺在碗底,备用。      4、用一个小锅,烧一锅水,把码好味的鱼倒入,大火煮1-2分钟起锅。     5、把煮好的鱼轻轻的放

2011-01-06 21:23:00 2354

原创 爬虫-网页解析之webkit

1.http://www.blueidea.com/tech/program/2009/6571_2.asp2.http://blog.csdn.net/ciml/category/317893.aspx3.http://leopard168.blog.163.com/blog/static/168471844201072112642310/4.http://leopard168.blog.163.com/blog/#m=0&t=1&c=fks_0840670820800860710860820870950

2010-12-20 23:20:00 2699

转载 Nutch1

<br />nutch搏斗之一问题描述: <br />在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现 <br />Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of the configured local directori

2010-12-20 23:13:00 587

转载 Nutch+HBase

<br />当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。 <br />它的优点很明显:架构合理. <br /><br />开发者是这样说的,引用自jira <br />http://issues.apache.org/jira/browse/NUTCH-650 <br /><br /><br />A) Why integrate with hbase? <br /><br

2010-12-20 23:08:00 1020

转载 高效利用时间的5个小方法

<br />高效利用时间的不二法门就是提高执行力,而提高执行力的重点在于对自己狠一点儿。对自己狠一点儿,这是提高执行力的开端,慢慢习惯了以后会渐入佳境,到时候你再浪费时间自己都觉得不好意思。 <br />    我经常听到一些同学们这样抱怨:“每天的时间那么少,我根本做不完所有的事情。” <br />    这是一个令人失望的故事:早晨起来你感觉乐观向上,描绘出一份宏图大志,野心勃勃的待办事项列表。然后生活就来向你求情了:“重要的”电子邮件发来,朋友们登门拜访,临时会议。这样一直到深夜,其实也仅仅完成了很少

2010-12-20 23:07:00 474

转载 考虑模拟浏览器的爬虫设计

<br />httpclient3 自动登陆淘宝, 开心网<br /><br />需要用到的java包 <br />commons-httpclient-3.1.jar <br />commons-logging.jar <br />log4j-1.2.15.jar <br />commons-codec.jar<br />登陆淘宝的例子:Java代码 package com.spider.cron;      import java.io.IOException;    import org.apache

2010-12-20 23:05:00 1183

转载 Lucene实时索引构建

<br /> <br />Lucene可以增量的添加一个段,我们知道,倒排索引是有一定的格式的,而这个格式一旦写入是非常难以改变的,那么如何能够增量建索引呢?Lucene使用段这个概念解决了这个问题,对于每个已经生成的段,其倒排索引结构不会再改变,而增量添加的文档添加到新的段中,段之间在一定的时刻进行合并,从而形成新的倒排索引结构。<br /><br />然而也正因为Lucene的事务性,使得Lucene的索引不够实时,如果想Lucene实时,则必须新添加的文档后IndexWriter需要commit,在搜

2010-12-20 23:03:00 648

转载 linux编程高手必读之经典图书(转载)

linux是一款非常优秀的开源操作系统,其使用范围非常广,包括网络服务器,嵌入式系统和桌面系统。但由于linux在国内普及较低,所以造成了 linux高级人才的严重匮乏,这也造就了linux专业人才平均薪资要比普及率大得多的windows专业人才高20%左右。当然初级人才不管是 linux上还是windows平台上都不缺,所以,如果您要想获得更好的发展和更高的薪资,那您就得把自己培养成一名高级的技术人才。如何才能把自己的水平提高呢?多读经典图书,多读优秀的开源代码,多写代码,除了这些别无它法。本文就向大家推

2010-12-06 23:00:00 453

原创 嵌入式数据库系统Berkeley DB

前言 http://www.ibm.com/developerworks/cn/linux/l-embdb/index.htmlUNIX/LINUX平台下的数据库种类非常多,参考资料1中列举了其中的大部分。通常,我们在设计UNIX/LINUX平台下的应用软件时,如果数据种类繁多,数据与数据之间关系比较复杂,就会选用一些大型的企业级数据库系统,如DB2,ORACLE、SYBASE等,如果软件规模不大,就倾向选用如MYSQL、POSTGRESQL等中小型数据库。例如使用PHP/PERL + MYSQL/POST

2010-12-06 22:56:00 504

转载 Google Protocol Buffer

什么是 Google Protocol Buffer? 假如您在网上搜索,应该会得到类似这样的文字介绍:Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交

2010-12-06 22:52:00 1141

原创 Nutch

简介Nutch 是一个基于 Java 实现的开源搜索引擎,其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始,Nutch 完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外,还实现了 Google 的 GFS 和 MapReduce 算法。因此基于 Hadoop 的 Nutch 搜索引擎可以部署在由成千上万计算机组成的大型集群上。由于商业搜索引擎允许竞价排名,这样导致索引结果并不完全是和站点内容相关的,而 Nutch 搜索结果能够给出一个公平的

2010-12-06 22:47:00 1199

转载 基于 Apache Mahout 构建社会化推荐引擎

Web 2.0 的一个核心思想就是“群体智慧”,即基于大众行为,为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息,成为了 Web 应用成败的关键。Apache Mahout 是 ASF(Apache Software Foundation)的一个较新的开源项目,提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎,帮助 Web 应用开发者更高效的实现个性化推荐功能,从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信

2010-12-06 21:55:00 523

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除