rongrong0206-CSDN博客

原创菜

12道经典川菜做法精选 煮鱼] 材料：3斤左右的白鲢1条，豆芽，大葱，干辣椒，泡椒，花椒，姜，蒜，鸡精，豆粉，料酒，盐，豆瓣做法： 1、将鱼杀好洗净，片成鱼片，鱼排剁成块状。 2、将鱼片用少许盐、料酒、生粉拌匀，码味30分钟。 3、锅内倒入少量植物油，将豆芽炒至7成熟，起锅，铺在碗底，备用。 4、用一个小锅，烧一锅水，把码好味的鱼倒入，大火煮1-2分钟起锅。 5、把煮好的鱼轻轻的放

2011-01-06 21:23:00 2481

原创爬虫-网页解析之webkit

1.http://www.blueidea.com/tech/program/2009/6571_2.asp2.http://blog.csdn.net/ciml/category/317893.aspx3.http://leopard168.blog.163.com/blog/static/168471844201072112642310/4.http://leopard168.blog.163.com/blog/#m=0&t=1&c=fks_0840670820800860710860820870950

2010-12-20 23:20:00 2787

转载 Nutch1

nutch搏斗之一问题描述： 在用nutch1.0做generate 包括5亿url的crawldb时，它默认按照64M分块，分成777个map task，在运行的后期出现 Could not find taskTracker/jobcache/job_200903231519_0017/attempt_200903231519_0017_r_000051_0/output/file.out in any of the configured local directori

2010-12-20 23:13:00 627

转载 Nutch+HBase

当我们为nutch的架构发愁的时候，nutch的开发人员送来了nutchbase。我一些简单的测试表明，在hadoop0.20.1和hbase0.20.2上，稍加修改可以运行起来。 它的优点很明显：架构合理. 开发者是这样说的，引用自jira http://issues.apache.org/jira/browse/NUTCH-650 A) Why integrate with hbase? <br

2010-12-20 23:08:00 1058

转载高效利用时间的5个小方法

高效利用时间的不二法门就是提高执行力，而提高执行力的重点在于对自己狠一点儿。对自己狠一点儿，这是提高执行力的开端，慢慢习惯了以后会渐入佳境，到时候你再浪费时间自己都觉得不好意思。 我经常听到一些同学们这样抱怨：“每天的时间那么少，我根本做不完所有的事情。” 这是一个令人失望的故事：早晨起来你感觉乐观向上，描绘出一份宏图大志，野心勃勃的待办事项列表。然后生活就来向你求情了：“重要的”电子邮件发来，朋友们登门拜访，临时会议。这样一直到深夜，其实也仅仅完成了很少

2010-12-20 23:07:00 527

转载考虑模拟浏览器的爬虫设计

httpclient3 自动登陆淘宝，开心网 需要用到的java包 commons-httpclient-3.1.jar commons-logging.jar log4j-1.2.15.jar commons-codec.jar 登陆淘宝的例子：Java代码 package com.spider.cron; import java.io.IOException; import org.apache

2010-12-20 23:05:00 1233

转载 Lucene实时索引构建

Lucene可以增量的添加一个段，我们知道，倒排索引是有一定的格式的，而这个格式一旦写入是非常难以改变的，那么如何能够增量建索引呢？Lucene使用段这个概念解决了这个问题，对于每个已经生成的段，其倒排索引结构不会再改变，而增量添加的文档添加到新的段中，段之间在一定的时刻进行合并，从而形成新的倒排索引结构。 然而也正因为Lucene的事务性，使得Lucene的索引不够实时，如果想Lucene实时，则必须新添加的文档后IndexWriter需要commit，在搜

2010-12-20 23:03:00 705

转载 linux编程高手必读之经典图书(转载)

linux是一款非常优秀的开源操作系统，其使用范围非常广，包括网络服务器，嵌入式系统和桌面系统。但由于linux在国内普及较低，所以造成了 linux高级人才的严重匮乏，这也造就了linux专业人才平均薪资要比普及率大得多的windows专业人才高20%左右。当然初级人才不管是 linux上还是windows平台上都不缺，所以，如果您要想获得更好的发展和更高的薪资，那您就得把自己培养成一名高级的技术人才。如何才能把自己的水平提高呢？多读经典图书，多读优秀的开源代码，多写代码，除了这些别无它法。本文就向大家推

2010-12-06 23:00:00 494

原创嵌入式数据库系统Berkeley DB

前言 http://www.ibm.com/developerworks/cn/linux/l-embdb/index.htmlUNIX/LINUX平台下的数据库种类非常多，参考资料1中列举了其中的大部分。通常，我们在设计UNIX/LINUX平台下的应用软件时，如果数据种类繁多,数据与数据之间关系比较复杂，就会选用一些大型的企业级数据库系统，如DB2，ORACLE、SYBASE等，如果软件规模不大，就倾向选用如MYSQL、POSTGRESQL等中小型数据库。例如使用PHP/PERL + MYSQL/POST

2010-12-06 22:56:00 548

转载 Google Protocol Buffer

什么是 Google Protocol Buffer？假如您在网上搜索，应该会得到类似这样的文字介绍：Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准，目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Protocol Buffers 是一种轻便高效的结构化数据存储格式，可以用于结构化数据串行化，或者说序列化。它很适合做数据存储或 RPC 数据交

2010-12-06 22:52:00 1329

原创 Nutch

简介Nutch 是一个基于 Java 实现的开源搜索引擎，其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始，Nutch 完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外，还实现了 Google 的 GFS 和 MapReduce 算法。因此基于 Hadoop 的 Nutch 搜索引擎可以部署在由成千上万计算机组成的大型集群上。由于商业搜索引擎允许竞价排名，这样导致索引结果并不完全是和站点内容相关的，而 Nutch 搜索结果能够给出一个公平的

2010-12-06 22:47:00 1252

转载基于 Apache Mahout 构建社会化推荐引擎

Web 2.0 的一个核心思想就是“群体智慧”，即基于大众行为，为每个用户提供个性化的推荐。这使得如何让用户能更快速更准确的获得所需要的信息，成为了 Web 应用成败的关键。Apache Mahout 是 ASF（Apache Software Foundation）的一个较新的开源项目，提供机器学习领域的一些经典算法的高效实现。本文主要讲述如何基于 Apache Mahout 来构建社会化推荐引擎，帮助 Web 应用开发者更高效的实现个性化推荐功能，从而提高最终用户满意度。推荐引擎简介推荐引擎利用特殊的信

2010-12-06 21:55:00 563

rongrong0206的专栏

原创菜