按着这位博主写的博客学习了python爬虫,在进行到第三个小项目爬去我们学校的网址时由于需要验证码登录,开始出现了好多问题,尤其是cookies的处理,没真正理解cookies因此导致两次登录验证码不一致。打算把代码放到github上,记录下出现的几个错误。
encode和decode到底是干什么的?这篇文章讲的感觉比较好。通常从网页上爬下来的字符为unicode对象,计算成绩绩点时要转换成str对象,encode(‘gb2312’)(网页采用gb2312编码,代码开始#-*- coding:utf-8 -*-,到底是该遵循哪个编码规则呢?)用string.atof()转换成float类型。
另外在urlopen的时候最好写try except,这样可以捕获异常方便知道什么原因出错。
爬虫参考写的很详细的一个爬虫经过
python爬虫小项目之计算研究生成绩绩点
最新推荐文章于 2023-02-11 19:47:25 发布