正则表达
one_isi_all
这个作者很懒,什么都没留下…
展开
-
webmagic的设计机制及原理-如何开发一个Java爬虫
webmagic的目标一般来说,一个爬虫包括几个部分:页面下载页面下载是一个爬虫的基础。下载页面之后才能进行其他后续操作。链接提取一般爬虫都会有一些初始的种子URL,但是这些URL对于爬虫是远远不够的。爬虫在爬页面的时候,需要不断发现新的链接。URL管理最基础的URL管理,就是对已经爬过的URL和没有爬的URL做区分,防止重复爬取。内容分析和持久转载 2015-07-01 17:48:47 · 683 阅读 · 0 评论 -
正则表达式
“^\d+$” //非负整数(正整数 + 0)“^[0-9]*[1-9][0-9]*$” //正整数“^((-\d+)|(0+))$” //非正整数(负整数 + 0)“^-[0-9]*[1-9][0-9]*$” //负整数“^-?\d+$” //整数“^\d+(\.\d+)?$” /原创 2015-07-01 15:50:17 · 287 阅读 · 0 评论 -
webmagic使用手册连接
http://webmagic.io/docs/zh/index.html转载 2015-07-09 20:05:48 · 623 阅读 · 0 评论 -
正则表达式大全
字符 含意 \ 做为转意,即通常在"\"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后/\b/,转意为匹配一个单词的边界。-或- 对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"\"后,/a\*/将只匹配"a*"。 ^ 匹配一个输入或一行的开头,/^a/匹配"an转载 2015-07-03 22:01:13 · 360 阅读 · 0 评论 -
正则表达式相关(group用法)
String url = "http://news.163.com/15/0819/10/B1CI2FD90001124J.html";String regexP0 = "(\\d{9})";Pattern p = Pattern.compile(regexP0);Matcher m = p.matcher(url);String Px = null ;while(m.f原创 2015-08-20 13:33:43 · 334 阅读 · 0 评论