爬虫
杰西米特
!-!
展开
-
免费的ip代理池
python写的一个ip池服务器原地址 github:https://github.com/jhao104/proxy_pool外国的网站太慢,我拉到gitee了: https://gitee.com/panlufei/proxy_pool我自己的服务器: 47.104.17.47:5010 (可以当测试使用, 不要大量访问.)47.104.17.47:5010/get 获...原创 2020-02-21 15:58:03 · 3015 阅读 · 2 评论 -
最近帮朋友爬虫,由于最后爬完数据要写入excel,需要在所有线程爬完之后,再调用文件导出方法,所以需要一个能判断所有线程都完成了的方法
方法一: 主线程里判断如果线程数量大于1,就一直等待, while(Thread.activeCount()>0){ try { Thread.sleep(2000); } catch (InterruptedException e) { e.printStackTrace...原创 2019-12-13 21:29:28 · 242 阅读 · 0 评论 -
java 批量爬取国图 marc信息,用txt和excel保存
代码提交到了 gitee上, 对应的文件夹 新建一个isbn.txt每行写一个isbn即可,然后运行程序即可,200个,大概能成功180-190 个(国图也不是很全),200大概用时15s左右链接:https://gitee.com/panlufei/demo/blob/master/src/main/java/com/plf/demo1/zg/Marc.java...原创 2019-11-09 19:57:02 · 799 阅读 · 4 评论 -
java爬取jd的所有图书类信息
maven 依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> <...原创 2019-09-29 14:16:05 · 544 阅读 · 0 评论