python爬虫实训心得体会-python爬虫学习心得

爬虫新手一枚,因为工作原因需要学习相关的东西。发表下这段时间学习的心得,有说得不对的地方欢迎指指点点。一.什么是爬虫在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息,再根据其提取所需的信息。原理虽然简单,但是涉及的细节非常多,从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式,有些http基础的同学应该都清楚他们的用处,在写...
摘要由CSDN通过智能技术生成

爬虫新手一枚,因为工作原因需要学习相关的东西。发表下这段时间学习的心得,有说得不对的地方欢迎指指点点。

一.什么是爬虫

在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息,再根据其提取所需的信息。原理虽然简单,但是涉及的细节非常多,从一个坑爬出来又掉进另一个坑。

二.post和get

post和get是两种向服务器发送请求的方式,有些http基础的同学应该都清楚他们的用处,在写爬虫时,涉及到同服务器交互肯定是离不了这两种方法的。其中get请求用于一系列对服务器数据没有影响的操作,如获取html,检索等,而post一般是用于对服务器数据有影响的功能,如提交表单等。如果只是简单爬取信息,一般用get方法。除此之前,get方法的安全性较Post方式要差些,如果需要提交包含机密信息的话,建议用Post提交方式,但get的执行效率比post方法好。

三.编码方式

这是跌进的第一个坑。源于对一个网页爬取时,不管怎么样都失败,浪费了将近一天时间才发现是编码混乱的原因造成。目前大多数中文网站采用GBK,GB2312,UTF-8这三种编码方式进行编码,详细的编码原理可查阅其他资料。通常在获取一个网页的html代码后都会先根据其编码方式进行转码,下面用python对从path获取的网页根据utf-8的方式进行转码。

html=urllib.request.urlopen(path).read().decode("utf-8")

正常来说,一个网页只会有一种编码方式,通过上述的代码就能完成对其的转码。但是,如果在一个网页里存在两种编码方式的字符会怎么样?对,就是这个原因导致我在这个问题上卡了将近一天。对我这个刚接触爬虫的

  • 5
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值