- 博客(3)
- 收藏
- 关注
原创 selenium模拟刷百度流量源码
代理可以网上找免费代理, 要是自己有代理池, 那么可以直接上自己的代理, 直接上代码public class Spider6 { public static void main(String[] args) { GetFromXici proxys = new GetFromXici("");
2016-05-31 10:52:15 2464
转载 开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?这里按照我的经验随便扯淡一下:上面说的爬虫,基本可以分3类
1.分布式爬虫:Nutch2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector3. 非JAVA单机爬虫:scrapy第一类:分布式爬虫爬虫使用分布式,主要是解决两个问题:1)海量URL管理2)网速现在比较流行的分布式爬虫,是Apache的Nutch。但是对于大多数用户来说,Nutch是这
2016-05-31 09:50:52 11891
转载 知道这20个正则表达式,能让你少写1,000行代码
正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码:var reg = /^(\\d{1,4})(-|\\/)(\\d{1,2})\\2(\\d{1,2})$/;
2016-05-31 08:47:00 373
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人