- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 关于JAVA的多线程爬虫
前言以前喜欢python的爬虫是出于他的简洁,但到了后期需要更快,更大规模的爬虫的时候,我才渐渐意识到java的强大。Java有一个很好的机制,就是多线程。而且Java的代码效率执行起来要比python快很多。这份博客主要用于记录我对多线程爬虫的实践理解。线程线程是指一个任务从头至尾的执行流。线程提供了运行一个任务的机制。对于Java而言,可以在一个程序中并发地启动多个线程。这些线程可以在多处理器系
2016-09-09 14:30:52 1999
原创 ubuntu使用selenium自动化操作
前言爬虫工作可谓是斗智斗勇,很多反爬虫工作杜绝了以往机器的模拟登录,最厉害的莫过于天猫超市的后台管理。因此,现在的机器爬虫在登陆的工作上,会使用半人工化的操作。而selenium便是一个很不错的机制。关于seleniumSelenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7、8、9)、Mozilla Firefo
2016-09-08 11:37:22 2800
原创 关于java爬虫与python爬虫
前言很多人说学习数据挖掘,先从爬虫入手。接触了大大小小的项目后,发现数据的获取是数据建模前的一项非常重要的活儿。在此,我需要先总结一些爬虫的流程,分别有python版的以及java版的。url请求java版的代码如下:public String call (String url){ String content = ""; BufferedReader
2016-09-06 17:34:00 12127 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人