正则表达
one_isi_all
这个作者很懒,什么都没留下…
展开
-
webmagic的设计机制及原理-如何开发一个Java爬虫
webmagic的目标 一般来说,一个爬虫包括几个部分: 页面下载 页面下载是一个爬虫的基础。下载页面之后才能进行其他后续操作。 链接提取 一般爬虫都会有一些初始的种子URL,但是这些URL对于爬虫是远远不够的。爬虫在爬页面的时候,需要不断发现新的链接。 URL管理 最基础的URL管理,就是对已经爬过的URL和没有爬的URL做区分,防止重复爬取。 内容分析和持久转载 2015-07-01 17:48:47 · 661 阅读 · 0 评论 -
正则表达式
“^\d+$” //非负整数(正整数 + 0) “^[0-9]*[1-9][0-9]*$” //正整数 “^((-\d+)|(0+))$” //非正整数(负整数 + 0) “^-[0-9]*[1-9][0-9]*$” //负整数 “^-?\d+$” //整数 “^\d+(\.\d+)?$” /原创 2015-07-01 15:50:17 · 277 阅读 · 0 评论 -
webmagic使用手册连接
http://webmagic.io/docs/zh/index.html转载 2015-07-09 20:05:48 · 600 阅读 · 0 评论 -
正则表达式大全
字符 含意 \ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an转载 2015-07-03 22:01:13 · 344 阅读 · 0 评论 -
正则表达式相关(group用法)
String url = "http://news.163.com/15/0819/10/B1CI2FD90001124J.html"; String regexP0 = "(\\d{9})"; Pattern p = Pattern.compile(regexP0); Matcher m = p.matcher(url); String Px = null ; while(m.f原创 2015-08-20 13:33:43 · 312 阅读 · 0 评论