爬虫基础知识及技巧详解

数据爬坡ing

已于 2024-05-21 20:50:09 修改

阅读量773

点赞数

分类专栏：数据分析文章标签：爬虫

于 2023-10-14 17:53:06 首次发布

本文链接：https://blog.csdn.net/m0_67447926/article/details/133828003

版权

数据分析专栏收录该内容

22 篇文章 1 订阅

订阅专栏

【引言】：爬虫是一种自动化程序或脚本，用于在互联网上浏览和收集信息。它可以帮助我们获取网页数据并进行进一步的分析和应用。然而，在使用爬虫时需要注意法律问题，特别是涉及商业或金钱的情况下要慎重。本文将介绍爬虫的基本概念、网页的构成要素以及爬虫的基本原理和常用技巧，帮助读者更好地理解和运用爬虫技术。

【正文】：

网页的基础知识
- 网页构成：HTML、CSS、JS三者共同构成网页的骨架、皮肤和肌肉。
  - HTML：决定网页的结构，包括头部节点、标题节点等。
  - CSS：决定网页的表现样式，放在头部的style节点中。
  - JS：提供网页动画和交互性，通常放在script节点中。
爬虫基本的原理
- 获取网页的源代码：通过请求库发起HTTP请求，主要使用requests库。
  - GET请求和POST请求的区别以及参数的传递方式。
  - 自定义header信息、cookies和user-agent等。
  - 使用selenium获取页面动态渲染后的源代码。
- 提取信息：分析网页源代码，提取需要的数据。
  - JSON数据的提取方法，可以使用response.json()或pd.read_json()。
  - 正则表达式的使用方法，如何编写表达式，以及通过find_all方法查找元素。
  - Beautiful Soup库的两个功能：解析文档和通过网页结构提取信息。
    - 节点选择器：直接调用节点的名字bs.p,bs.p.attrs['name']
    - 方法选择器：find,find_all(id\name=,class_=)
    - css选择器：select('.sister')通过节点，通过类名，通过ID名
    - 保存数据：将提取到的数据保存到文件或数据库中。【with open(file_path,'w') as f: f.write(resp.content)】
爬取技巧
- 爬取多页：了解URL之间的关系，注意爬取速度的限制。
  - 如何找出URL之间的规律，实现多页爬取。
  - 使用time模块的sleep函数控制爬取速度。
- 动态渲染页面的爬取：使用selenium库驱动浏览器获取动态渲染后的源代码。
  - 节点定位和操作步骤，如获取元素、输入内容、点击按钮、下拉进度条、执行动作链、显示/隐式等待、前进后退、选项卡管理、常用键操作等。
  - 获取网页源代码和信息的提取方法(bs)。
- 反爬虫技巧：应对网站的反爬虫措施。
  - 使用user-agent模拟浏览器访问，设置header信息。
  - 使用多账号登录或cookies池解决登录限制问题。
  - 使用代理IP突破IP限制，可以使用ip池。
  - 对验证码进行OCR识别，可以接入打码平台。
  - 完全模拟浏览器行为使用selenium库。
  - 使用抓包软件进行分析，了解网站的请求和响应过程。

【结尾】：本文介绍了爬虫的基础知识和常用技巧，希望读者能够通过阅读本文更深入地了解和应用爬虫技术，同时也需要注意合法合规地使用爬虫工具。

(找资源/ai办公/商务合作，感兴趣加好友)

数据爬坡ing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
爬虫基础知识及技巧详解

本文将介绍爬虫的基本概念、网页的构成要素以及爬虫的基本原理和常用技巧，帮助读者更好地理解和运用爬虫技术。【结尾】：本文介绍了爬虫的基础知识和常用技巧，希望读者能够通过阅读本文更深入地了解和应用爬虫技术，同时也需要注意合法合规地使用爬虫工具。动态渲染页面的爬取：使用selenium库驱动浏览器获取动态渲染后的源代码。获取网页的源代码：通过请求库发起HTTP请求，主要使用requests库。爬取多页：了解URL之间的关系，注意爬取速度的限制。提取信息：分析网页源代码，提取需要的数据。
复制链接

扫一扫