Python爬虫浅述

Python作为一种解释型编程语言,在很多场景下都有应用,比如,搜索引擎,网页脚本,爬虫,网络安全等;在部分场景需要算法做支持;然而今天就总结一下简单的脚本爬虫,毕竟是在大二时期接触的Py,将近两年没碰了。

在抓包的场景中,现在有脚本抓包,软件抓包,在计算机安全那块对包的抓取软件应用要求较高,主要像Fiddle(windows)、Charles(windows\Linux);咳咳,今天说的是爬虫,有点串了,软件使用改天在总结;
Python爬之前,先要了解爬虫过程,及Python一些开源库。

爬虫过程主要分三部分:

1、目标url管理
2、网页下载器
3、网页解析器

爬虫前首先确定要爬的目标url,并且要进行简单的管理,以区分是否是爬过的url,避免重复爬取;
确定之后,要进行网页下载;之后对下载的网页进行解析,从其中解析出有用的数据,所谓有用的数据,这个就要提前确定将爬取哪些东西;

在目标url管理块可以将其放入内存,数据库,缓存;这个根据爬取规模和深度,现有条件进行选择;
在网页下载块,有官方的urllib,第三方的requests;网页解析器有正则(模糊匹配)、parser、beautifulSoup、lxml,后三种都是结构化解析,第一个是模糊匹配;所谓结构化就是将其形成类寺DOM树的结构根据标签,关键字进行匹配,其中beautifulSoup可以应用parser\lxml进行解析;

理论内容已经说完,具体的实例根据MOOC的一个简单的百科爬虫实例
https://github.com/weiyanyanyan/Python-.git

这里将一些在实例里遇到的一些问题:

**1、首先Python对缩进要求很高
2、py2和py3不互相兼容,也就是说两者有些api有差异
3、在进行爬取时,注意网页编码,显示编码和浏览器显示编码,否则容易出现爬取页面和爬取编码一致但出现乱码的现象**

这些都是一些踩过的坑,供上一些优质解答,相互学习,共同进步;
http://blog.csdn.net/qq374576114/article/details/69783649
http://blog.csdn.net/jim7424994/article/details/22675759

同时供上自己的github源码:https://github.com/weiyanyanyan/Python-.git

注:源码版本为Py3.6;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

魏小言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值