自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

转载 ER-Studio的五种关系说明 .

1. identifying relationship: 1对多。 父实体的主键是子实体的外键(FK1),且FK1是主键。 2. no identifying, mandatory relationship: 1对多。  父实体的主键是子实体的外键(FK1),FK1不为空。 3. no identifying, optional relaotionship: 1对多

2015-05-13 16:32:28 620

转载 解决waiting for "Building workspace" to complete:project--->去掉build Automatically

project--->去掉build Automatically

2015-03-15 20:22:42 917

转载 JAVA正则表达式入门

Java作为一种开发语言,有许多值得推荐的地方,但是它一直以来没有自带对正则表达式的支持。直到最近,借助于第三方的类库,Java开始支持正则表达式,但这些第三方的类库都不一致、兼容性差,而且维护代码起来很糟糕。在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,终于能够支持正则表达式了。与一般语言有点不同的是:对java的解释器来说,在反斜线字符(/)前的

2015-01-23 11:38:15 505

转载 关于heritrix的性能

1.Heritrix可以以任何URL作为种子,只要你这个种子URL里包含其他URL,就可以一直不停的抓取下去,直到所有URL抓取完毕。2.垂直搜索需要特殊控制,如抓取你想要抓的URL,以及抽取你要抽取你要的内容。Heritrix的高度可扩展性可以帮你解决这些问题。如继承Frontier、Extractor、Writer,以及自定义Rule都可以。(1)Extrator:pa

2015-01-23 11:36:39 735

转载 heritrix源码分析(未完成。太长了!!)

Heritrix源码分析(一) 包介绍 序号  包名                   说明  1 org.apache.commons.httpclient      封装了apache的httpclient用于Fetch网页内容  2 org.apache.commons.httpclient.cookie 封装了apache的httpclient用于Fetch网页内容,这里主要

2015-01-21 17:26:03 872

转载 heritrix-1.14.4初学笔记

在运行heritrix过程中有个很重要的配置文件order.xml(这里面有很多配置的属性要慢慢的了解)这里面声明了运行过程中所需的所有属性heritrix读取order.xml文件通过--org.archive.crawler.settings包下的XMLSettingsHandler类一、order.xml文件的读取1.要把order.xml文件封装到File中。

2015-01-21 17:17:39 567

转载 heritrix 抓取指定的html

Heritrix的整体结构简图如下:它的工作流程是一个循环,具体流程是:  1 在预定的URI中选择一个。  2 从选择的URI的网址下载远程文件  3 分析,归档下载到的内容  4 从分析到的内容里面选择感兴趣的URI。加入预定队列。  5 标记已经处理过的URI 在大概的了解了Heritrix及它的工作机制之后,我们就可以

2015-01-21 17:03:30 1064

转载 heritrix抓取网页!

[wbia 1.1] heritrix抓取网页信息 [wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之。我对heritrix的了解较浅,希望此文对第一次用爬虫的程序猿有帮助。

2015-01-21 17:02:16 1314

转载 Heritrix 1.14.4 安装/使用

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行。目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布),您可以从 SourceForge(http://sourceforge.net/

2015-01-21 14:48:59 852

转载 Heritrix 抓取 高级篇

使用Heritrix进行抓取网页,有半天阅读我之前博客的话,很容易就能够顺利的进行抓取任务,但在抓取过程中可能会遇到: 1 想抓取特定格式/特定要求 的网页 这个要根据具体的网站,才能采取具体的措施。这主要是根据网站编写的时候,它的出度的具体格式。如果是类似这样的可以直接指向某个具体的URL,那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容,而只是

2015-01-21 14:06:25 790

转载 Heritrix 1.14.3 运行环境配置

heritrix好像已经有3.0的版本了,但是sourceforge上还是给1.14.3的下载链接,3.0版本的弄不出来,目录结构改动太大了,连heritrix.properties都找不到了,还是用1.14.3来做爬虫吧。1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包2、在Eclipse下新建Java项目,取名Heritr

2015-01-21 14:03:30 565

转载 Android获取手机型号/系统版本号/App版本号等信息实例讲解

示例获得手机型号,系统版本,App版本号等信息MainActivity如下: 复制代码代码如下:package cn.testgethandsetinfo; import android.os.Bundle; import android.text.TextUtils; import android.widget.TextView; import and

2015-01-08 11:35:07 1870

转载 Java简单的网络爬虫实现

首先介绍每个类的功能:DownloadPage.java的功能是下载此超链接的页面源代码.FunctionUtils.java 的功能是提供不同的静态方法,包括:页面链接正则表达式匹配,获取URL链接的元素,判断是否创建文件,获取页面的Url并将其转换为规范的Url,截取网页网页源文件的目标内容。HrefOfPage.java 的功能是获取页面源代码的超链接。Url

2015-01-07 15:27:48 633

转载 java 简单网络爬虫实现

import java.io.BufferedInputStream;import java.io.IOException;import java.io.InputStream;import java.net.HttpCookie;import java.net.HttpURLConnection;import java.net.MalformedURLException;

2015-01-07 15:21:16 478

转载 java爬虫:Heritrix教程

Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/.下载后的截

2015-01-07 14:57:17 4402 1

转载 Python爬虫之路——简单的网页抓图

用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。整个源码如下,比较简单,写这个只是简单的练手而已[python] view plai

2015-01-07 14:22:27 895

转载 Python爬虫之路——简单网页抓图升级版(增加多线程支持)

经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了多种分辨率图片的文件下载,具体设置方法代码注释里面有介绍。这次的代码仍然有点不足,Ctrl-C无法

2015-01-07 14:20:25 703

转载 Android页面跳转实现方法:activity&TabActivity

通用的页面跳转方法有两种:1、IntentIntent适合Activity与Activity之间的跳转,按返回键可以直接返回前一页面缺点:需要到Manifest注册Activity2、setContentView适合同一Activity里的不同View之间跳转优点:按返回键不会返回到前一页面,需要自己添加按键监听代码来实现    In

2015-01-07 13:31:48 2770

转载 Android中AlertDialog和Toast的使用

1、AlertDialog是一个信息提示框,当出现是,需要用户点击,才会消失 首先是一个最简单的应用,就是弹出一个消息框,在android中可以这样实现view plaincopy to clipboardprint?1   new  AlertDialog.Builder(self)    2                   .

2015-01-06 10:23:17 670

转载 <meta http-equiv="X-UA-Compatible" content="IE=edge" />

X-UA-Compatible是针对ie8新加的一个设置,对于ie8之外的浏览器是不识别的,这个区别与content="IE=7"在无论页面是否包含指令,都像是使用了 Windows Internet Explorer 7的标准模式。而content="IE=EmulateIE7"模式遵循指令。对于多数网站来说,它是首选的兼容性模式。目前IE8尚在测试版中,所以为了避免制作出的页面在IE8

2014-12-20 20:51:46 436

转载 如何设置网页地址栏前面的标志favicon图标?

是不是打开一些比较大型的网站,网页的地址栏前面都有该网站的标志,网页标志ico如何设置?地址栏标志favicon.ico? 如何让网站的图标出现在地址栏上?在收藏夹和地址栏前面添加ICO图标? 如:百度,163,新浪等.如图 :37计favicon图标裁图.     37计的favicon图标地址为:  http://www.37ji.com/favicon.i

2014-12-20 20:50:28 799

转载 <meta name="name" content="string">

一、语法:二、参数解析:1)name项:常用的选项有Keywords(关键字) ,description(网站内容描述),author(作者),robots(机器人向导)等。2)http-equiv项:可用于代替name项,常用的选项有Expires(期限),Pragma(cache模式),Refresh(刷新),Set-Cookie(cookie设定),Window-target

2014-12-20 20:08:35 460

转载 关于标签<meta http-equiv="X-UA-Compatible" content="IE=edge" />

X-UA-Compatible是针对ie8新加的一个设置,对于ie8之外的浏览器是不识别的,这个区别与content="IE=7"在无论页面是否包含指令,都像是使用了 Windows Internet Explorer 7的标准模式。而content="IE=EmulateIE7"模式遵循指令。对于多数网站来说,它是首选的兼容性模式。目前IE8尚在测试版中,所以为了避免制作出的页面在IE8

2014-12-20 20:02:46 572

Snagit 11版本截图软件

非常牛的截图软件。支持滚动截屏,全屏截屏,视频截屏

2013-09-29

Balsamig mockups设计软件

Balsamiq Mockups是一种软件工程中快速原型的建立软件,可以做为与用户交互的一个界面草图,一旦客户认可可以做为美工开发HTML的原型使用。

2013-09-29

Keil注册机

Keil注册机。。KeilC51Vcngr的。。。

2013-04-10

Java&Servlet&API说明文档

Java&Servlet&API说明文档

2013-04-10

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除