Spider第1课：爬虫基础

最新推荐文章于 2024-06-13 15:30:07 发布

MingT-L

最新推荐文章于 2024-06-13 15:30:07 发布

阅读量772

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/lmt_fight/article/details/108295093

版权

这篇博客介绍了Python爬虫的基础知识，包括urllib模块的使用，如urlopen和request.data，以及如何处理网页编码问题。还提到了模拟POST请求的实现，并以百度翻译为例进行了分析，探讨了在爬虫过程中可能遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

爬虫准备

参考资料
- 精通python爬虫框架Scrapy，人民邮电出版社
- Python3网路爬虫
- Scrapy官方教程
前提知识
- url
- http协议
- web前端，html，css，js
- ajax
- re，xpath
- xml

本节包含以下知识

urlopen
chardet
response
parse
post

爬虫的介绍

爬虫定义：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本
两大特征：
- 能按作者要求下载数据或者内容
- 能自动在网络上流窜
三大步骤：
- 下载网页
- 提取想要的信息
- 根据一定规则自动跳到另外的网页上执行上面两步内容
爬虫分类
- 通用爬虫
- 专用爬虫（聚焦爬虫）
Python网络包简介
- Python2.X：urllib,urllib2,urllib3,httplib,httplib2,request
- Python3.X:urllib,urllib3,httplib,request
- Python2基本使用urllib和urllib2或者request即可
- Python3基本使用urllib和request

urllib

包含模块

urllib.request:打开和读取urls
urllib.error:包含urllib.request产生的常见的错误，使用try捕捉
urllib.parse:包含一些解析url的方法
urllib.robotparse:解析robots.txt文件，网站一些针对爬虫的规矩会写在这里面，比如能爬的有哪些不能爬的有哪些，或者告诉你，你一天只能爬一次。
案例见1.py
- 在这个案例实现过程中遇到的几个小问题：
  - 有的网址爬的很慢有的网址爬的很快，这可能和网站服务器有关，一开始我还以为是我电脑太辣鸡（或许可能就是我电脑辣鸡…）也可能和所爬取网页的内容量有关,因为我爬的是海贼王漫画的网址。
  - bytes转换成字符串需要decode，网页的不同可能会抛出这样的异常：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xba in position 244: invalid start byte
    这种情况我们可以打开控制台，看一下网页结构，在head中找meta标签，看一下charset属性值，通常是utf-8但是也有国际码gbk的，所以将decode第一个参数传入gbk（这是我爬的网址的charset属性值）：decode(“gbk”)，我试了一下就报了这样的错，这样一般是decode第二个参数的errors为严格（strict）形式造成的，因为默认strict，最后写成decode(“gbk”,“ignore”)这样问题解决。

在这里插入图片描述

from urllib import request
if __name__ == '__main__':
    url = "http://manhua.kukudm.com/comiclist/4/index.htm"
    # 打开相应url并把相应页面座位返回
    rsp = request.urlopen(url)

    # 把返回结果读取出来,这里读取出来的是bytes
    html = rsp.read()
    print(type(html))

    # 把bytes转换成字符串需要解码
    html = html.decode("gbk","ignore")
    print(html)
# 由于打印出的html篇幅较大，此代码块就不运行了

网页编码问题解决（我透…原来下节课就讲了,我还在上边自己研究…）

来看一下大佬解法吧
chardet:可以检测页面文件的编码格式，但是可能有误（淦,妙啊…）

from urllib import request
import chardet
if __name__ == "__main__":
    url = "https://blog.csdn.net/c406495762/article/details/72858983"
    # 用request打开url
    rsp

最低0.47元/天解锁文章

MingT-L

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spider第1课：爬虫基础

爬虫准备参考资料精通python爬虫框架Scrapy，人民邮电出版社Python3网路爬虫Scrapy官方教程前提知识urlhttp协议web前端，html，css，jsajaxre，xpathxml本节包含以下知识urlopenchardetresponseparsepost爬虫的介绍爬虫定义：网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本两大特征：
复制链接

扫一扫

专栏目录