python有自己内置的库和许多第三方放入库,因此可以写很少的代码,实现更多的功能;
在python2.7.6版本以后都有pip和相关的架包不需要自己导入 如urllib或者urllib2等等,不过在python3后合并在一起了;
1.urllib和urllib2都是Python的一个获取url(Uniform Resource Locators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做opener和handler的对象来处理的。
以下是获取url最简单的方式:
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
2.当我们把相应url中的整个网页下载下来时,因为里面有乱,因此,我们就需要有一个清洗数据的过程,以下两种就可以实现
1.正则表达式http://www.runoob.com/python/python-reg-expressions.html
2.python beautifulsouphttp://cuiqingcai.com/1319.html
这两种方式后者比较简单,因为也是python的第三方库,因为正则很容易造成死循环;
这就是一个简单的数据爬取需要的相应库,当然要和java结合的话,需要python-java相关 的插件;