python的数据爬取问题


python有自己内置的库和许多第三方放入库,因此可以写很少的代码,实现更多的功能;

在python2.7.6版本以后都有pip和相关的架包不需要自己导入 如urllib或者urllib2等等,不过在python3后合并在一起了;

1.urllib和urllib2都Python的一个获取urlUniform Resource Locators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时 也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做openerhandler的对象来处理的。

以下是获取url最简单的方式:

import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()

2.当我们把相应url中的整个网页下载下来时,因为里面有乱,因此,我们就需要有一个清洗数据的过程,以下两种就可以实现

1.正则表达式http://www.runoob.com/python/python-reg-expressions.html

2.python beautifulsouphttp://cuiqingcai.com/1319.html

这两种方式后者比较简单,因为也是python的第三方库,因为正则很容易造成死循环;

这就是一个简单的数据爬取需要的相应库,当然要和java结合的话,需要python-java相关 的插件;


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值