python爬虫-12-23

最近打算写一个爬虫,两个目的,学会python,写出知道创宇的题。

我下了一个python3.3。里面有一个编辑器IDLE。

首先,作为一个爬虫,他要具有爬取网页源码的功能。

python自带的urllib库中的request.py文件中有这个函数,URLOPEN(url)。(不同于以往的版本,urllib的库更加像一个。。网络client和server的函数库角色)

 

其次,为了爬取更多的网页源码,我需要得到更多的URL,所以我需要从跟网页的源码中获得,方法有两个,1.提取<a href value=后面的内容。2.利用正则匹配表达式,提取http://的信息

目前的进展时,我完成了这两步,只不过还存在一些问题,1.编码问题,这个困扰我很久,有的网页源码可以用utf-8来decode出来str的源码,但是大部分都不可以。我已经把这个问题发给了cos,不知道他会不会理我。。。2.正则匹配表达式:单纯使用第一种方法很难得到全部的url,又是甚至根本没有。

 

转载于:https://www.cnblogs.com/derekDoMo/archive/2012/12/23/2829658.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值