python爬虫入门学习案例(亲测实用)

Python爬虫(web spider),即爬取网站,获取网页数据并进行分析提取。

一、爬虫的基本流程

1.发起请求
      通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

2.获取响应内容
       如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

3.解析内容
      得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

4.保存数据
     保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

——————————————————————————————————————————————

二、爬虫两种基本方法

(1)批量下载html文档,然后对HTML进行解析(即:标签内容解析),用的模块主要是:request、bs64

(2)对html源代码中的数据进行正则匹配提取数据:用的模块主要是:request、urllib 、re

——————————————————————————————————————————————

三、案例

案例入门1https://blog.csdn.net/zeal9s/article/details/84031129(5分钟)

说明:该案例是用的python3.x版本,python2.x版本的童鞋可能会出现如下问题:

    问题1: ImportError: No module named request的问题
    解决方案:https://blog.csdn.net/haoxuexiaolang/article/details/105356268
    问题2:SyntaxError: Non-ASCII character '\xe5' in file
    解决方案:由于注释或输出语句中存在中文或者不规范空行导致中文编码原因,所以这里建议把代码中到的全部中文注释删除,把print输出语句中的中文改为英文,再次运行即可。

 

案例入门2:https://blog.csdn.net/peishuai1987/article/details/100572006(5分钟)
视频讲解:https://www.bilibili.com/video/BV1k4411y7pB?from=search&seid=7643928425836418077

说明:
  1.该案例是用的python3.6+的版本,因为f-string是格式化字符串的一种很好的新方法:https://www.jb51.net/article/181854.htm
  2.爬虫准备:https://www.cnblogs.com/bwjblogs/p/11857272.html
  3.项目配置:https://jingyan.baidu.com/article/2f9b480de92e4a41cb6cc229.html(Pycharm如何给项目配置python解释器)


问题1:      中文乱码影响程序执行
解决方案:  代码顶部添加 # -*- encoding:utf-8 -*-,防止中文乱码影响程序执行
问题2:url = f"http://www.crazyant.net/page/{idx+1}" 解析不成功
解决方案:https://blog.csdn.net/weixin_43560272/article/details/100801456 (字符串和变量拼接的写法)

 

#最后说一句#:编写实属不易,我分享我快乐,若喜欢或者对你有帮助记得点赞、关注、打赏或者收藏哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值