2014年10月_AJAXHu

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创 WebCollector Cookbook (WebCollector中文文档)

WebCollector Cookbook (WebCollector中文文档):WebCollector Cookbook (WebCollector中文文档)

2014-10-04 21:52:51 3756

WebCollector Cookbook (WebCollector中文文档)

WebCollector Cookbook (WebCollector中文文档):http://www.brieftools.info/document/webcollector/

2014-10-04 21:52:00 635

原创 WebCollector爬虫的redis插件

/** * RedisCrawler是WebCollector的一个插件，将WebCollector的任务管理交 * 给redis数据库，使WebCollector可以进行海量网页的爬取 */public class MyCrawler extends RedisCrawler{ public MyCrawler(String tableName,String ip,int p

2014-10-03 23:28:34 2384 1

WebCollector爬虫的redis插件

使用WebCollector的redis插件，进行爬取。（使用redis数据库进行任务管理）/** * RedisCrawler是WebCollector的一个插件，将WebCollector的任务管理交 * 给redis数据库，使WebCollector可以进行海量网页的爬取 */public class MyCrawler extends RedisCrawler{ ...

2014-10-03 23:28:00 218

原创在WebCollector爬虫中，自定义http请求

对一些访问受限的网站进行爬取（例如需要登录、切换代理等

2014-10-03 23:25:12 5452

对一些访问受限的网站进行爬取（例如需要登录、切换代理），往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求，下面示例通过自定义http请求，使用httpclient 4.x进行http请求。（需要导入httpclient 4.x所需jar包，或添加httpclient 4.x的maven dependency)....

2014-10-03 23:25:00 606

原创 WebCollector爬虫的数据持久化

WebCollector爬虫并不像scrapy那样，提供哦

2014-10-03 23:13:50 3133

WebCollector爬虫的数据持久化

WebCollector爬虫并不像scrapy那样，提供一个pipeline这样的数据持久化接口。用户通过自定义WebCollector中BreadthCrawler中的visit方法，来定义对每个页面的操作。同样，数据的持久化，也是在这里让用户自定义的。例如下面这个示例，展示如何将网页的源码，保存到数据库中：import cn.edu.hfut.dmic.webcollecto...

2014-10-03 23:13:00 426

原创 WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说，Jsoup使用的CSS SELE

2014-10-03 22:50:05 2833

WebCollector爬虫使用内置的Jsoup进行网页抽取

WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说，Jsoup使用的CSS SELECTOR无疑是最稳定的抽取特征。传统的抽取方案大多数依赖正则或者xpath，但是正则和xpath这两个特征无论是从稳定性，还是从开发效率，都远远低于CSS SELECTOR。下面的示例，就是用WebCollector内置的Jsoup，对知乎的提问进行抽取：pu...

2014-10-03 22:50:00 256

原创 WebCollector爬虫的各种参数配置（代理、断点等）

WebCollector最常用的爬import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.model.Page;import java.net.InetSocketAddress;import java.net.Proxy;public cl

2014-10-03 22:37:37 6154 1

WebCollector爬虫的各种参数配置（代理、断点等）

BreadthCrawler是WebCollector最常用的爬取器之一，依赖文件系统进行爬取信息的存储。这里以BreadthCrawler为例，对WebCollector的爬取配置进行描述：import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.mod...

2014-10-03 22:37:00 685

原创 WebCollector爬虫爬取一个或多个网站

定义一个MyCrawler类，继承BreadthCrawler，来完成一个爬虫，对合肥import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.model.Page;public class MyCrawler extends Breadt

2014-10-03 22:22:46 5333

WebCollector爬虫爬取一个或多个网站

定义一个MyCrawler类，继承BreadthCrawler，来完成一个爬虫，对合肥工业大学官网和新华网进行爬取。对于一个最简单的爬虫，有2个东西是必备的：1）种子2）正则约束3）对每个页面的自定义操作（BreadthCrawler默认的visit方法是将网页保存到文件夹，建议覆盖，改成自己的自定义操作）import cn.edu.hfut.dmic.webcollect...

2014-10-03 22:22:00 702

原创 WebCollector爬虫的种子

网络爬虫之所以能够不断找到新的网页，是因为它能够从已经爬取的页面中，提取出

2014-10-03 21:29:22 2498

WebCollector爬虫的种子

网络爬虫之所以能够不断找到新的网页，是因为它能够从已经爬取的页面中，提取出未爬取的超链接，但是当爬虫开启的时候，是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页，来找到新的网页（通过超链接抽取）。对于广度遍历来说，种子就是树的树根（森林的树根集合）。例如下图，对http://www.apache.org/进行爬取，http://www.apache....

2014-10-03 21:29:00 410

原创将WebCollector导入MAVEN项目

WebCollector可通过MAVEN直接导入项目，在pom.

2014-10-03 21:21:08 3112

将WebCollector导入MAVEN项目

WebCollector可通过MAVEN直接导入项目，在pom.xml中添加dependency:<dependency> <groupId>cn.edu.hfut.dmic.webcollector</groupId> <artifactId>WebCollector</artifactId> <v...

2014-10-03 21:21:00 307

原创将WebCollector导入普通项目

查看教程：WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫

2014-10-03 21:18:02 1954

将WebCollector导入普通项目

将WebCollector导入普通项目只需要两步：1.到WebCollector的github主页https://github.com/CrawlScript/WebCollector ，下载webcollector-版本号-bin.zip，解压。2.将解压后文件夹中所有的jar包，加入项目的build path，导入成功。...

2014-10-03 21:18:00 138

原创用WebCollector下载在线API文档

用WebCollector下载的在线API文档，发布在

2014-10-03 17:44:57 5238 2

用WebCollector下载在线API文档

用WebCollector下载的在线API文档，发布在精简导航上：JAVA6的中文API：http://www.brieftools.info/document/JDK60/JSOUP中文教程：http://www.brieftools.info/document/jsoup/...

2014-10-03 17:44:00 308

android 背单词锁屏

android版背单词锁屏，简单的功能，可以提升您的英语水平。

2013-10-20

JAVA制作火狐内核浏览器源代码

JAVA制作火狐内核浏览器源代码，很容易运行。具体使用方法请看我的博客。

2013-10-13

org.eclipse.swt 相关jar包

org.eclipse.swt 相关jar包,JAVA调用火狐内核制作浏览器教程中所需，供各位下载，可在我的博客中查看详细用法。

2013-10-13

MozillaInterfaces.jar（火狐内核相关jar包）

java开发火狐内核所需要的jar包，由于官方获取方法比较复杂，所以这里提取出来上传到CSDN方便各位下载。详细使用方法请看我的博客。

2013-10-13

java笔试题 android版 1.1

java笔试题1.1，可在公交车上复习笔试题，流量消耗小

2013-10-11

android版java笔试题 1.0

android版java笔试题1.0，让您在公交车上可以方便地复习java笔试。

2013-10-11

java获取文本关键词的API

通过这个jar包，可以轻松获取一篇文章的API，5秒即可学会使用。可在我的CSDN博客中查看使用方法。

2013-10-06

http服务器源码--java版（适合学习）

java写的http服务器源码，有注释，适合初学者学习。可以直接使用。

2013-10-05

电脑手机中转站

怎样将电脑上正在看的网页轻松转移到手机上？使用“电脑手机中转站”这个应用，可以轻松实现。

2013-09-21

android 记事本

这是一个android的记事本，可以添加文字和图片，也可以添加闹钟，是学习的好东西。

2013-08-10

编译原理龙书

编译原理最经典的教材，龙书，碾压任何编译原理教材。

2013-07-11

C# 照相机好用

C#　摄像头。如果ＷＩＮ７没有自带摄像头可以用这个代替

2012-12-26

C# 编写的魔兽挂，开源

C# 的魔兽挂，开源的哦，功能很齐全.很好。

2012-12-09

C# DOTA 卡尔智能改键

C#编写的卡尔智能改键挂，可以快速切技能，提供了源代码

2012-12-09

C#美工初学，窗口渐变

一个Ｃ#的窗口渐变代码，给初学者使用，运行后会显示教程

2012-08-16

一个非常有趣的显示文字程序

一个C#写的小程序.新方法显示文字可能算法会慢一些。由于接触内存。可能360会报错

2012-05-07

C#小程序很好玩的

C#的小程序很好玩的仅供学习研究使用

2011-04-03

selenium及依赖jar包(java)

selenium及所有依赖jar包(java)，selenium,java,模拟浏览器,模拟登录

2015-07-21

bbs项目源码(java+mysql)

java结合mysql的bbs论坛源码，可直接放在tomcat下使用，学习和工作的必备，包含数据库和源码两部分，内附说明和使用方法

2015-05-05

企业应用架构模式中文版 PDF.pdf.zip

本书讲述各种分析模式（即来自概念性业务模型的模式）和支持模式（即讲述如何使用分析模式的辅助性模式），把论述重点放在介绍面向对象分析和设计的最终结果—即模型本身。作者透过平实朴素的语言，将自己丰富的对象建模经验与读者分享，使读者可以马上采纳这些经验性模式。

2015-02-23

Linux系统常用命令快速入门

2014-12-02

AUTONOMY技术白皮书.doc

AUTONOMY技术白皮书.

2014-05-16

Linux 下用 C 语言进行数字图像处理.pdf

Linux 下用 C 语言进行数字图像处理.pdf Linux 下用 C 语言进行数字图像处理.pdf Linux 下用 C 语言进行数字图像处理.pdf

2014-05-16

均匀直线阵方向系数

均匀直线阵方向系数.m.zip均匀直线阵方向系数.m.zip均匀直线阵方向系数.m.zip

2014-05-12

算法导论第三版总结与练习思考题答案（英文）

2014-05-12

公司员工电脑设置清单.doc

2014-05-12

WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统

2014-05-12

汇编显示时钟.asm

汇编语言是一门重要的程序设计语言下面列举了至少4本名叫《汇编语言》的图书和教材并简要介绍了高校计算机相关专业在开设“汇编语言”课程方面的一些情况

2014-05-11

反编译工具 C# VB DELPHI C++ C zip

计算机软件反向工程（Reverse engineering）也称为计算机软件还原工程，是指通过对他人软件的目标程序（可执行程序）进行“逆向分析、研究”工作

2014-05-11

pso工具箱 matlab

微粒群算法是一种模拟动物群体社会行为的群智能优化算法，现已成为自然计算的一个重要分支。《微粒群优化算法》分为9章，第1、第2章介绍了微粒群算法的概念、基本方程以及相关社会行为分析等，并给出了一个较为详细的综述。第3～5章从生物学背景出发，分别从个体的觅食时间、觅食行为、觅食决策等方面探讨了微粒群算法的改进模式。第6～8章的研究内容则从控制角度出发探讨微粒群算法的相关控制方式。在现实世界中，由于目标函数计算困难或计算时间较长等因素，许多复杂的优化问题难以利用微粒群算法进行优化。

2014-05-10

MSDN中文版下载

VC++的文档MSDN，C++编程必备，这是难得的中文版。

2014-05-09

毕业设计源码搜索引擎

一个毕业设计的源码，内容是一个搜索引擎。如果有任何问题请看压缩包中附带的“使用前必读”和“教程地址“文件，教程在CSDN中有连载，百度搜索即可获取。

2014-01-21

CrawlScript-bin-beta0.3 JAVA的爬虫脚本语言

CrawlScript-bin-beta0.3 ，CrawlScript语言0.3beta版，无需配置。 JAVA的爬虫脚本语言，用几行代码即可实现对整个网站的爬取，直接执行demo中的代码，可以获取整个新华网的所有的新闻（从网页中提取出的干净的新闻）。

2014-01-20

CrawlScript-bin-beta0.1 JAVA的爬虫脚本语言

官方网站和资料： http://crawlscript.github.io/ 网络爬虫脚本语言 CrawlScript: 网络爬虫即自动获取网页信息的一种程序，有很多JAVA、C++的网络爬虫类库，但是在这些类库的基础上开发十分繁琐，需要大量的代码才可以完成一个简单的操作。鉴于这个问题，我们开发了CrawlScript这种脚本语言，程序员只需要写2-3行简单的代码，就可以制作一个强大的网络爬虫。同时，CrawlScript由JAVA编写，可以在其他JAVA程序中被简单调用。

2014-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

android 背单词锁屏

JAVA制作火狐内核浏览器源代码

org.eclipse.swt 相关jar包

MozillaInterfaces.jar（火狐内核相关jar包）

java笔试题 android版 1.1

android版java笔试题 1.0

java获取文本关键词的API

http服务器源码--java版（适合学习）

电脑手机中转站

android 记事本

编译原理 龙书

C# 照相机 好用

C# 编写的魔兽挂，开源

C# DOTA 卡尔 智能改键

C#美工初学，窗口渐变

一个非常有趣的显示文字程序

C#小程序 很好玩的

selenium及依赖jar包(java)

bbs项目源码(java+mysql)

企业应用架构模式中文版 PDF.pdf.zip

Linux系统常用命令快速入门

AUTONOMY技术白皮书.doc

Linux 下用 C 语言进行数字图像处理.pdf

均匀直线阵方向系数

算法导论第三版总结与练习思考题答案（英文）

公司员工电脑设置清单.doc

WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统

汇编显示时钟.asm

反编译工具 C# VB DELPHI C++ C zip

pso工具箱 matlab

MSDN中文版下载

毕业设计源码 搜索引擎

CrawlScript-bin-beta0.3 JAVA的爬虫脚本语言

CrawlScript-bin-beta0.1 JAVA的爬虫脚本语言

空空如也

编译原理龙书

C# 照相机好用

C# DOTA 卡尔智能改键

C#小程序很好玩的

毕业设计源码搜索引擎