python学习笔记（五）—— 爬虫

最新推荐文章于 2024-05-22 16:20:08 发布

MiaoDa1

最新推荐文章于 2024-05-22 16:20:08 发布

阅读量176

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/qq_45638980/article/details/101775706

版权

学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

HTML

from urllib.request import urlopen
html = urlopen(URL).read().decode('utf-8') # 中文需decode()
print(html)

读取网页，然后用正则表达式选取内容。

BeautifulSoup

sudo pip3 install beautifulsoup4
sudo pip3 install lxml
from bs4 import BeautifulSoup

soup = BeautifulSoup(html, features='lxml') print(soup.h1)

all_href = soup.find_all('a') all_href = [l['href'] for l in all_href] print('\n', all_href)

BeautifulSoup CSS

month = soup.find_all('li', {"class": "month"})
for m in month:
    print(m.get_text())

BeautifulSoup 正则

img_links = soup.find_all("img", {"src": re.compile('.*?\.jpg')})

Requests

sudo pip3 install requests

get
post

下载

from urllib.request import urlretrieve
import requests 下载大文件

爬虫加速

多进程分布式爬虫
异步加载 Asyncio

高级爬虫

Selenium
Scrapy

隐藏代理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MiaoDa1

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python学习笔记（五）—— 爬虫

一些关于python的学习～
复制链接

扫一扫

专栏目录

python爬虫学习笔记（二）——解析内容

01-20

补充：在一些其他的教程中，发现也可以用urllib模块获取数据，urllib模块是python内置的一个http请求库，不需要额外的安装。只需要关注请求的链接，参数，提供了强大的解析。requests库则需格外安装，但是个人感觉...

用Python爬取图片

迷茫与徘徊只会让你陷入绝境，欢迎私信博主，带你开始提升变现价值！

08-04

5007

前言有的时候，我们喜欢去网站浏览一些美图，或者是在平时工作学习中，需要一些好看的图片来作为素材，亦或是无聊的时候想要打发时间，去放松放松，这个时候难道你还在一张一张的点开链接，去浏览吗？我想在这个数据爆发的时代，这样做是不是有点费时间了，下面我们就来看看一波操作！让你一饱眼福… 导入库导入一些爬虫需要的第三库，是我们爬虫首先的一步： from bs4 import BeautifulSoup import requests import os import re 这些库，以及后面涉及的一些知识点，我在

参与评论您还未登录，请先登录后发表或查看评论

【Python爬虫】爬虫程序的简单处理过程

sinat_37967865的博客

05-18

420

一月份的时候有写过一篇文章，是关于如何解析网站，然后将图片下载下来，爬虫爬取美女图片存入到动态的文件夹中今天主要总结的是爬虫的一个基本思路，主要有： 1.获取一个网页get_one_page() 我们知道一个网页可能由多个参数构成，我们可以传参进去。 2.分析一个网页，获取有用的信息parse_one_page()或者获取图片下载save_one_image() 我们可以通过正则表达式或者...

Scrapy-Redis原理和源码解析

热门推荐

learner_syj的博客

10-02

3万+

BeautifulSoup详解 BeautifulSoup是Python爬虫常用的一个库，起到解析页面的功能。但是我们课上的老师没有把这个库详细的讲，所以我利用网上的资源自己整合一下，写一篇Blog来学习一下~ 首先是BeautifulSoup库的安装：命令行运行: pip3 install beautifulsoup4 BeautifulSoup的解析器：我们常用html.parser解析器解析器使用方法优势 Python标准库 BeautifulSoup(response

python爬虫学习笔记 2.9 （使用bs4得案例）

12-21

此外，这个例子也涵盖了之前学习笔记中提到的一些关键概念，如通用爬虫和聚焦爬虫（1.1）、HTTP与HTTPS（1.2）、str和bytes的区别（1.3）、Request库的使用（1.4和1.5）、urllib模块（1.7和1.8）以及正则表达式和...

python爬虫学习笔记（三）—— 实战爬取豆瓣TOP250电影

12-20

python爬虫学习笔记（一）——初识爬虫 python爬虫学习笔记（二）——解析内容开始实战爬取豆瓣TOP250电影首先还是重新复习下爬虫的基本流程：发起请求获取响应内容解析内容保存数据 1. 发起请求首先观察豆瓣...

Python学习笔记（十）——–Python异常捕获与处理及自定义异常

01-21

【图文详解】python爬虫实战——5分钟做个图片自动下载器.zip

01-01

学习笔记：在项目开发过程中，我记录了大量的学习笔记和心得体会。这些笔记不仅有助于理解项目的开发过程，还能为学习Python爬虫技术提供宝贵的参考资料。适用人群：这份项目合集适用于所有对Python爬虫开发感...

Python：BeautifulSoup之soup.find_all()用法

Yummy的博客

11-15

2万+

1. 查找标签soup.find_all('tag') 2. 查找文本soup.find_all(text='text') 3. 根据id查找soup.find_all(id='tag id') 4. 使用正则soup.find_all(text=re.compile('your re')), soup.find_all(id=re.compile('your re')) 5. 指定属性查找标签soup.find_all('tag', {'id': 'tag id', 'class': 'tag ...

python soup findall_BeautifulSoup库findAll()、find()方法详解

weixin_39714849的博客

12-08

1179

find()和findAll()官方定义如下：findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)95%的时间只用前2个参数：tag，attributes。tag可以传一个标签的名称或多个标签名称组成的 Python列表做标签参数。例如，下...

【BeautifulSoup类的find_all()方法的其他属性的用法】

Lemon_rio的博客

11-03

1753

find用法和findall一模一样，但是返回的是找到的第一个符合条件的内容输出。注意find()方法返回的不是列表，而是一个单个元素对象，想要访问该对象的子元素就直接使用.contents[n]即可，不需要再添加下表。因为对于class是Python中的一个关键字，因此这里的class后要加一个下划线，即class_=‘sister3’。注意class后的下划线：class_而访问列表元素的下一级元素则使用：.contents[n]来访问（也是从0开始的）【参数2】attrs：参数接收属性的键值对字典。

小白Python学习之旅三

Mr_wuliboy的博客

04-09

540

1.使用beautifulsoup从网页中爬取信息：使用beautifulsoup之前先要导入，from bs4 import BeautifulSoup注意B和S要大写，然后需要引入urlopen这是为了导出网页的HTML源码，from urllib.request import urlopen ...

爬虫学习笔记（十二）—— scrapy-redis（一）：基本使用、介绍

别呀的博客

07-18

8059

一、分布式概念和作用分布式：一个业务分拆多个子业务，部署在不同的服务器上;是一种将任务分布在不同地方的工作方式。作用：提高安全性和效率分布式爬虫：默认情况下，我们使用scrapy框架进行爬虫时使用的是单机爬虫，就是说它只能在一台电脑上运行，因为爬虫调度器当中的队列queue去重和set集合都只能在本机上创建的，其他电脑无法访问另外一台电脑上的内存和内容。分布式爬虫实现了多台电脑使用一个共同的爬虫程序，它可以同时将爬虫任务部署到多台电脑上运行，这样可以提高爬虫速度，实现分布式爬虫。二、Scr

使用scrapy-redis搭建分布式爬虫环境

weixin_30307921的博客

06-07

852

scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。有如下特征：  分布式爬取　　您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。  分布式数据处理　　爬取到的scrapy的item数据可以推入到redis队列...

scrapy-redis

weixin_43580523的博客

05-24

3169

1. 简介 scrapy流程 scrapy-redis scrapy是一个基于redis的scrapy组件，用于快速实现scrapy项目的分布式部署和数据爬取。组件 Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。 Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。 Downloader（下载器）：负责下载Scra

scrapy-redis(分布式爬虫)

lemonguess的博客

08-02

990

一、概念概念：多台机器对一个项目进行分部联合爬取。作用：增加工作单位，提升爬取效率。前提：每一台工作机器都需要scrapy的运行环境。

尚硅谷python爬虫

08-15

- *1* [零基础自学python爬虫笔记Day1——爬虫的基本原理](https://blog.csdn.net/Seyhang/article/details/119420052)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交