![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
one_isi_all
这个作者很懒,什么都没留下…
展开
-
webmagic的设计机制及原理-如何开发一个Java爬虫
webmagic的目标一般来说,一个爬虫包括几个部分:页面下载页面下载是一个爬虫的基础。下载页面之后才能进行其他后续操作。链接提取一般爬虫都会有一些初始的种子URL,但是这些URL对于爬虫是远远不够的。爬虫在爬页面的时候,需要不断发现新的链接。URL管理最基础的URL管理,就是对已经爬过的URL和没有爬的URL做区分,防止重复爬取。内容分析和持久转载 2015-07-01 17:48:47 · 669 阅读 · 0 评论 -
Scrapy初学
连接地址http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/overview.html转载 2015-07-12 12:52:14 · 274 阅读 · 0 评论 -
webmagic使用手册连接
http://webmagic.io/docs/zh/index.html转载 2015-07-09 20:05:48 · 606 阅读 · 0 评论 -
正则表达式大全
字符 含意 \ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。-或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an转载 2015-07-03 22:01:13 · 352 阅读 · 0 评论 -
java定时器
package com.colasoft.wcs.service;import com.mongodb.BasicDBObject;import com.mongodb.DBObject;/** * * @author * 2 */public class WarnningLog { private static CrawlerRoundL原创 2015-09-28 11:10:00 · 319 阅读 · 0 评论 -
获取登录需要的cookie简单案列
package com.colasoft.wcs.cookie;import java.io.IOException;import java.util.ArrayList;import java.util.List;import javax.script.Invocable;import javax.script.ScriptEngine;import javax.script.S原创 2015-10-16 17:42:35 · 2106 阅读 · 0 评论 -
简单的验证码识别(通过颜色)
Class_onepackage com.eduask.luck;import java.awt.image.BufferedImage;import java.io.File;import java.io.FileInputStream;import javax.imageio.ImageIO;public class OrcTest_two {/**原创 2015-09-17 16:13:36 · 3026 阅读 · 0 评论 -
不规整的验证码图片切割字符
package com.eduask.luck.validate;import java.awt.Color;import java.awt.image.BufferedImage;import java.io.File;import java.util.ArrayList;import java.util.HashMap;import java.util.List;原创 2015-09-22 17:54:49 · 2574 阅读 · 3 评论