![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
流浪剑客孙
浙江大学软件工程硕士在读
展开
-
利用JAVA的BFS爬虫爬出豆瓣读书的评论和标签
直接上代码目前还没写更改IP跳点的操作 ,爬到1400多条就被豆瓣服务器给BAN了,后续会慢慢地更新版本TIP:BFS可无限爬取直至被BAN,DFS的话即使是换成尾递归也只能爬出400多条TIPTIP:我正则表达式用的很烂,后面会把String操作全部转移到正则表达式中去,否则算法复杂度降不下来,大量异常的抛出可能也与String操作有关package com;/** * 孙...原创 2019-05-29 12:28:11 · 295 阅读 · 0 评论 -
多线程爬虫爬取豆瓣标签和评论
利用多线程技术开九路爬虫对数据进行爬取package com;/** * 孙煜晗爬虫九倍速魔改版 * sunYuhan */import java.io.*;import java.net.*;import java.util.*;import java.util.regex.*;public class exe2{ static exe e1; public sta...原创 2019-06-04 21:06:58 · 460 阅读 · 0 评论