python3爬虫,最短时间实现(一)



引言:自学python已经一年有余,起初是因为兴趣,能方便的做一些事情,比如爬虫之类的,而后由于上课的实验也可以用python解决,遂仔细学习python多时。遗憾的是,至今未能做出成型的东西,趁此机会对python3爬虫进行完整学习。
1:关于python2与python3的差别用多说。
关于python3,取消了python2中的urllib2模块,与urllib一并在python3合成的urilib包,内含error,parse,request reponse,robotparser模块,注意区别。
2:关于爬虫,目前我应该先解决关于一个页面的问题,后面再进行多个页面的讨论。


Begin:
一:用python抓取指定页面


关于python3里:
1::字符就是unicode字符,字符串就是unicode字符数组
2:str转bytes叫encode,bytes转str叫decode


代码如下:


## -*- coding: utf-8 -*-


import urllib.request  


#百度女神吧首页
url = 'http://tieba.baidu.com/f?ie=utf-8&kw=%E5%A5%B3%E7%A5%9E&fr=search'  
temp_data = urllib.request.urlopen(url).read()
data = temp_data.decode('utf-8')
print(data)

#(代码亲测以通过)






关于temp.data.decode('utf-8')一句,取决于该url所用的编码,若是gbk,则相应的改成gbk,否则会报错。


二:简单处理url




# -*- coding: utf-8 -*-


import urllib.request
import urllib 


data = {}
data['word'] = 'python'
url_values = urllib.parse.urlencode(data)
url = 'http://www.baidu.com/s?'+url_values
temp_data = urllib.request.urlopen(url).read()
print(url_values)
print(temp_data)
#代码亲测以通过


注:urlencode函数将data字典转换为word=python的字符串,合成url,改Utemp_data为百度搜索python的返回数据。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值