最近在做舆论分析系统的爬虫部分,实验室已经有祖传的Java微博爬虫代码了,但是已经出了问题跑不动了。Java爬虫应用也是比较广泛的,主要包括几个方面需要学习:
1. 网络理论
2. httpclient工具
3. 正则表达式
4. 模拟登录(cookie加密算法,模拟浏览器)
5. 多线程任务架构设计
6. 数据库连接,导出数据
一步步慢慢学吧~
最近在做舆论分析系统的爬虫部分,实验室已经有祖传的Java微博爬虫代码了,但是已经出了问题跑不动了。Java爬虫应用也是比较广泛的,主要包括几个方面需要学习:
1. 网络理论
2. httpclient工具
3. 正则表达式
4. 模拟登录(cookie加密算法,模拟浏览器)
5. 多线程任务架构设计
6. 数据库连接,导出数据
一步步慢慢学吧~