Miner爬虫
文章平均质量分 97
Miner爬虫
托马斯小火车喷雾又喷烟,一直喷,喷喷喷.
这个作者很懒,什么都没留下…
展开
-
java jsoup 多线程爬虫Miner
java jsoup多线程爬虫Miner需要配置项:1、URL包含关键字。2、存储方式:DB-数据库存储;FILE-文件存储。3、爬取页面最大深度。4、下载页面线程数。5、分析页面线程数。6、存储线程数。-------------------------------------------程序中用到的表:CREATE TABLE `miner` (...原创 2016-04-25 19:53:21 · 185269 阅读 · 5 评论 -
StoreType.java 存储方式
StoreType.java 存储方式package com.iteye.injavawetrust.miner;/** * 存储方式 * @author InJavaWeTrust * */public enum StoreType { /** * DB-数据库存储 */ DB("DB"), /** * FILE-文件存储 */ FILE("FILE...原创 2016-03-28 08:21:44 · 158989 阅读 · 0 评论 -
MiseringThread.java 解析页面线程
MiseringThread.java 解析页面线程http://injavawetrust.iteye.compackage com.iteye.injavawetrust.miner;import java.util.Set;import org.apache.commons.logging.Log;import org.apache.commons.logging.Log...原创 2016-03-28 08:17:15 · 160477 阅读 · 1 评论 -
MinerUtil.java 爬虫工具类
MinerUtil.java 爬虫工具类package com.iteye.injavawetrust.miner;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.Ou...原创 2016-03-27 09:45:20 · 142973 阅读 · 0 评论 -
MinerUrl.java 解析页面后存储URL类
MinerUrl.java 解析页面后存储URL类package com.iteye.injavawetrust.miner;/** * 解析页面后存储URL类 * @author InJavaWeTrust * */public class MinerUrl { /** * 当前爬取URL */ private String url; /** * 当前爬取UR...原创 2016-03-27 09:42:16 · 141027 阅读 · 0 评论 -
MinerThreadPool.java 线程池
MinerThreadPool.java 线程池package com.iteye.injavawetrust.miner;import java.util.concurrent.BlockingQueue;import java.util.concurrent.LinkedBlockingQueue;import java.util.concurrent.ThreadPoolExe...原创 2016-03-27 09:37:24 · 142960 阅读 · 0 评论 -
MinerStoreThread.java 存储线程
MinerStoreThread.java 存储线程package com.iteye.injavawetrust.miner;import java.util.HashMap;import java.util.Map;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactor...原创 2016-03-27 09:35:50 · 143110 阅读 · 0 评论 -
MinerQueue.java 访问队列
MinerQueue.java 访问队列package com.iteye.injavawetrust.miner;import java.util.HashSet;import java.util.LinkedList;import java.util.Queue;import java.util.Set;import org.apache.commons.logging.L...原创 2016-03-27 09:32:02 · 142398 阅读 · 0 评论 -
MinerMonitorThread.java 监控线程
MinerMonitorThread.java 监控线程package com.iteye.injavawetrust.miner;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;/** * 监控线程 * @author Administrator * */...原创 2016-03-26 09:29:18 · 143361 阅读 · 0 评论 -
MinerHtmlThread.java 爬取页面线程
MinerHtmlThread.java 爬取页面线程package com.iteye.injavawetrust.miner;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org.jsoup.Connection;import org.jsoup...原创 2016-03-26 09:27:23 · 143309 阅读 · 0 评论 -
MinerDB.java 数据库工具类
MinerDB.java 数据库工具类package com.iteye.injavawetrust.miner;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statem...原创 2016-03-26 09:23:55 · 139612 阅读 · 0 评论 -
MinerConstanits.java 常量类
MinerConstanits.java 常量类package com.iteye.injavawetrust.miner;/** * 常量类 * @author InJavaWeTrust * */public class MinerConstanits { /** * 存储目录 */ public static String HTMLPATH = "E:\\I...原创 2016-03-26 09:20:14 · 140017 阅读 · 0 评论 -
MinerConfig.java 爬取配置类
MinerConfig.java 爬取配置类package com.iteye.injavawetrust.miner;import java.util.List;/** * 爬取配置类 * @author InJavaWeTrust * */public class MinerConfig { /** * URL包含关键字 */ public List<...原创 2016-03-25 13:53:49 · 139881 阅读 · 0 评论 -
MinerBean.java 数据库表 miner bean
MinerBean.java 数据库表 miner beanpackage com.iteye.injavawetrust.miner;import java.util.Date;/** * 数据库表 miner bean * @author InJavaWeTrust * */public class MinerBean { /** * uuid */ pri...原创 2016-03-25 13:53:08 · 139908 阅读 · 0 评论 -
Html.java 存储页面信息类
Html.java 存储页面信息类package com.iteye.injavawetrust.miner;/** * 存储页面信息类 * @author InJavaWeTrust * */public class Html { /** * 页面URL */ private String url; /** * 页面信息 */ private St...原创 2016-03-25 13:52:17 · 140138 阅读 · 0 评论 -
Miner.java 爬虫启动类
Miner.java 爬虫启动类package com.iteye.injavawetrust.miner;import java.util.concurrent.ThreadPoolExecutor;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;/** *...原创 2016-03-25 13:52:07 · 140083 阅读 · 0 评论