搜索引擎技术
球长
这个作者很懒,什么都没留下…
展开
-
VC Webbrowser 控件窗口的隐藏和显示
一般窗体的隐藏和显示只要这样就行: explorer.ShowWindow(SW_HIDE); explorer.ShowWindow(SW_SHOW); 但是如果是webbrowser对象就不行了,第二句会报错,原因是hide后,对象的m_hWnd被释放了,所以必须改成下面的方式: ::ShowWindow(explorer.GetSafeHwnd(), SW_HIDE原创 2013-07-24 13:45:21 · 2251 阅读 · 0 评论 -
利用webkit生成网页截图 1
最近需要对网页截图,试过很工具,大多只能支持静态页面(我需要css、js、flash、cookie、html5等等统统支持),有个chrome插件 "WebPage Screenshot"功能是挺不错的,但这种模式应用于服务器端(搜索引擎系统)实在是太丑陋。 所以,想到利用webkit内核直接生成网页截图。 目前来看,关键点在这个类里面WebCore::Gr原创 2013-06-26 17:03:06 · 3601 阅读 · 0 评论 -
Nutch2 WebPage写入数据库的过程分析
版本: Nutch 2.2.1 本文通过InjectJob来追踪webpage的定义、创建、传递、序列化、写入数据库的整个过程。从源码中摘录了重要的代码行,并标明其所在文件名、行号。 1. 定义 schema schema直接写在源代码里面: //file: org/apache/nutch/storage/WebPage.java //line: 42 publi原创 2014-03-07 18:56:40 · 3913 阅读 · 1 评论 -
Nutch2 之 GeneratorJob
版本:Nutch2.2.1 类:GeneratorJob 源码:src/java/org/apache/nutch/crawl/GeneratorJob.java GeneratorJob从数据库中取出WebPage,执行若干处理后,更新对应的数据库记录。 重点都在这一行里: //file: src/java/org/apache/nutch/crawl/GeneratorJob原创 2014-03-19 11:27:37 · 2210 阅读 · 0 评论 -
Nutch2 之 InjectorJob
版本: Nutch2.2.1 类:InjectorJob 源码:src/java/org/apache/nutch/crawl/InjectorJob.java 这个类从文本文件(seeds_file)中读取URLs,执行若干初始化操作后,插入到WebPage数据库。 一、 读取、解析种子文件 seeds_file中每个url占一行, 而且可以选择设定一些m原创 2014-03-19 11:18:36 · 2238 阅读 · 0 评论 -
Nutch2 WebPage 字段解释
id 主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息。 headers 标准的http headers ,其中包含非打印字符。Last-Modified 等信息可能于判断网页是否需要更新(仅需发一个head请求,而不是下载整个网页) text原创 2014-03-05 11:53:36 · 4582 阅读 · 0 评论