Requests+BeautifulSoup+python Basic WebScraping

最新推荐文章于 2024-04-17 13:14:16 发布

豌豆射手GCC

最新推荐文章于 2024-04-17 13:14:16 发布

阅读量111

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/BLUEsang/article/details/106746965

版权

Python 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

标题

引入头文件

import requests
from bs4 import BeautifulSoup

c保存requests.get得到的网站的html代码；

r=requests.get("http://www.pyclass.com/example.html",headers={"User-agent":'Mozilla/5.0(X11;Ubuntu;Linux x86_64;rv:61.0)Gecko/20100101 Firefox/61.0'})  #get
c=r.content

soup将c中代码转为html格式；

soup = BeautifulSoup(c,"html.parser")   
#变为HTML代码

soup中存放html代码，soup.find_all()得到每个标签；
all为存放所有div标签+cities类的列表；

all=soup.find_all("div",{"class":"cities"})   #找到所有div  类名为cities

找到all中所有div标签的h2标签；

all[0].find_all("h2")#无需加入map    #要用tag才行，不能对list操作
all[0].find_all("h2")[0].text    #text可去掉头尾

遍历all，得到所有h2或p（paragraph）；

for item in all:
    print(item.find_all("p")[0].text)     #p的得到paragraph

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

豌豆射手GCC

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫之路1.初始requests模块，并爬取百度首页（2022.1.2）

lixuefei_1993的博客

01-02

2201

爬去百度首页，并进行持久化存储。

Python爬虫学习之requests+BeautifulSoup学习

生息之地

09-24

1178

爬虫快速入门 requests 参考资料中文站 1 快速入门在requests中，它会使用urllib3来自动完成Keep-alive和自动保持HTTP连接等功能。使用requests.get(url)即可发送一个get请求使用requests.post(url,data={key,value})可以发送一个POST请求。同理，put,delete,head与options都可以这样发送。传递参数有时会需要向URL的查询字符串中传递某种数据。如果是手工构建的话，需要向URL中插入键值对

参与评论您还未登录，请先登录后发表或查看评论

【Python_requests学习笔记（一）】基于requests和re模块，爬取百度图片

禾戊之昂的博客

02-24

3051

此篇文章中介绍requests的基本用法，和基于requests和re模块，爬取百度图片的案例。

python 使用requests爬取百度图片并显示

做减求空

09-11

2998

本文旨在介绍使用Python中的`requests`库爬取百度图片并显示的操作方法。该操作较为简单，适合初学者入门。

基于requests实现爬虫百度内容---py版本

最新发布

2301_80068745的博客

04-17

418

【代码】基于requests实现爬虫百度内容---py版本。

python + requests 获取百度首页

王大傻的博客

01-12

738

requests库：第三方库，安装方法：pip install requests。

python Web爬取工具总结 1 ：Requests和BeautifulSoup

hhhparty的博客

09-28

950

1. 引言近一年接触了不少基于python的Web爬虫系统或工具库，收获不少，需要继续总结提高，所以下面对各类工具的应用方法和特性进行总结。 2. 内容概要根据自己的学习经历，本文涉及内容大致有以下部分： - Requests - beautifuSoup - selinium - urlib - scrapy - pyspider

Python Web Scraping Cookbook: Over 90 proven recipes to get you scraping with Py

07-29

Familiarity with Python and basic understanding of web scraping would be useful to take full advantage of this book. Table of ContentsGetting Started with ScrapingData Acquisition and ...

Python爬虫之requests and BeautifulSoup 参数注释【爬虫篇二】

Burgess_zheng的博客

02-23

1481

目录 requested简介 GET请求 1、无参数实例 2、有参数实例 POST请求 1、基本POST实例 2、发送请求头和数据实例其他请求更多参数参数列表参数示例 BeautifulSoup 对象的种类安装使用示例 name，标签名称 a...

requests+bs4批量爬取反爬虫图片网站

小青蛙的博客

02-27

2160

导读：爬取反爬虫图片网站预览效果遇到的问题: 刚开始爬虫的时候，爬取到的所有图片都是一张重定向推广图片解决办法：在requests请求头headers中配置Referer属性，指向爬取网站的顶级域名（根据情况而定）爬虫代码 import os,re import requests from contextlib import closing from bs4 import Beautif...

requests

tzy2358的博客

03-16

1250

作用：发送网络请求，返回响应数据。

The first day：Requests模块，简单爬取网页界面信息

Pangpangbupang.

10-20

654

目录一、首先实现通过Requests模块爬取百度主页信息代码流程：源码：打开baidu.html查看爬取结果二、基于百度针对指定不同的关键字将其对应的页面进行爬取源码第一版：第一版测试：源码第二版：第二版测试： Requests是爬虫中基于网络请求的模块，其作用是模拟浏览器发起请求。一、首先实现通过Requests模块爬取百度主页信息代码流程： 1.指定URL 2.发起请求 3.获取响应的数据（爬取到的页面源码数据） 4.持久化储存数据 ...

手把手带你学python爬虫

12-05

课程名称：手把手带你学会Python爬虫课程特色：大量的课堂案例，让你解决疑难杂症能力更上一层楼学习建议：建议懂前端基础和后端基础的人观看课程简介：课程包含urllib、requests、正则、xpath、bs4、selenium、js破解、滑动验证码、模拟登陆、字体破解、多任务爬虫、Scrapy框架、分布式爬虫、增量爬虫、代理池、手机抓包、爬虫部署等知识。还等什么？快来让幽默老司机手把手带你学会Python爬虫吧。

Python爬虫实战之三：requests-百度/360搜索关键词提交

miracle2me的专栏

12-01

5420

本实战项目是中国大学MOOC国家精品课程《Python网络爬虫与信息提取》（by嵩天北京理工大学）学习笔记。代码段均可在ide中运行by now(2021-12-01). 1.爬取目标爬取的是百度/360搜索某个关键词返回的页面信息。首先看一下百度请求数据的url长下面这样，这里搜索的是关键词字符串是‘Python’。 360搜索关键词'Python'的url及返回是下面这样的： 2.爬取链接百度搜索url: http://www.baidu.com/s 3...

04. requests模块入门与三个案例（搜狗搜索/百度翻译/豆瓣电影）

Vec_Kun的博客

12-28

978

在前面小节中，我们使用urllib来抓取页面源代码，这是python内置的一个模块，但它并不是我们常用的爬虫工具。常用的抓取页面的模块是第三方模块——requests。这个模块的优势就是比urllib还要简单，并且处理各种请求都很方便。本节我们学会了requests模块的安装，成功编写了三个简单的爬虫案例，认识了两种不同请求方式的requests用法，增添了学习兴趣，增强了编程的自信心，希望大家可以和我一起共同进步，一起努力~

python爬取百度搜索_使用Python + requests爬取百度搜索页面