爬虫
文章平均质量分 75
学AI的二哈
一枚小菜鸡
展开
-
爬虫笔记5
笔记目录 文章目录笔记目录一、bs4的基本用法1.bs4的安装与导入2.bs4的用法3.bs4解析数据4.获取数据,保存文件二、bs4实战:爬取图片你懂的三、xpath解析1.xpath简介2.xpath的用法 一、bs4的基本用法 1.bs4的安装与导入 代码如下(示例): #pip install bs4 -i 清华 import requests from bs4 import BeautifulSoup 提示:安装在这里不做过多赘述,pip需要已安装成功。 2.bs4的用法 这里我们通过一个原创 2021-07-12 10:07:50 · 106 阅读 · 0 评论 -
爬虫笔记4
爬虫笔记一、re实战豆瓣Top2501.爬取前的准备语句2.解析数据,书写正则3.开始匹配,数据保存二、bs4的引入前提,HTML 一、re实战豆瓣Top250 示例:爬取一个网页前,首先要获得要爬取的url url = “https://movie.douban.com/top250” 1.爬取前的准备语句 代码如下(示例): url = "https://movie.douban.com/top250" headers = { "User-Agent": "Mozilla/5.0原创 2021-07-04 13:26:58 · 106 阅读 · 0 评论 -
爬虫笔记3
目录一、数据解析概述二、数据解析分类三、正则表达式1.什么是正则表达式2.正则优缺点3.元字符4.量词5.贪婪匹配和惰性匹配四.re模块1. findall2. finditer3. search4. match5. 预加载正则表达式6. 正则中的内容如何单独提取 一、数据解析概述 通俗来讲,数据解析就是从你爬取到的网页里提取自己想要的信息或数据。 二、数据解析分类 re解析 bs4解析 xpath解析 三、正则表达式 1.什么是正则表达式 一种使用表达式的方式对字符串进行匹配的语法规则。 抓取到的原创 2021-05-23 15:12:36 · 98 阅读 · 0 评论