python爬虫系列一

最新推荐文章于 2020-12-03 20:17:27 发布

m0_37204377

最新推荐文章于 2020-12-03 20:17:27 发布

阅读量302

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/m0_37204377/article/details/76695911

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

不多说直接放代码

# encoding: utf-8
#加载bs4的包里面的beatifusoup类
from bs4 import BeautifulSoup

#加载urllib，爬虫必备
import urllib
#声明一个变量，传入url给url的变量
url = 'https://www.douban.com/tag/小说/?focus=book'

#调用urllib类里面的urlopen函数，进行获取到url的html代码
htmurl = urllib.urlopen(url,'html.parser')

#创建一个beautifulsoup的对象soup
soup = BeautifulSoup(htmurl)

#首先获取div标签里面的所有内容
book_div = soup.find(attrs={'id':'book'})

#然后获取div标签里面的a标签内容
book_a = soup.find_all(attrs={'class':'title'})

#循环a标签，然后把a标签里面的string打印出来
for book in book_a:
    print book.string

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_37204377

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

[爬虫]beatifusoup简单教程

蒗若晨曦

06-07

828

使用bs4爬豆瓣小说名

王小波的博客

01-29

303

import requests from bs4 import BeautifulSoup res = requests.get("http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book") # print(res) soup = BeautifulSoup(res.content, "html.parser") # print(sou...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫beautifulsoup_5分钟快速学习掌握python爬虫Beautifulsoup解析网页

weixin_39845241的博客

12-03

119

python爬虫用Beatifulsoup库解析网页提取所需元素新手看懂个人观点：之前我们有讲过爬虫和网页的一些联系，网页的一些组成部分，爬虫就是对网页里面的数据进行提取然后对其进行数据处理，筛选出所需部分，供需要者使用。___________________________________________________________所需工具：浏览器打开任意我们想要解析网页，比如某大型搜索引擎...

Win7，64位下Python3.5.2，安装Beautiful Soup 4（whl文件）

Huhuang的专栏

03-04

3460

链接：http://www.lfd.uci.edu/~gohlke/pythonlibs/ Beautiful Soup 4 包，在链接（非官方下载，比较全）里可以找到。或到点击打开链接下载Beautiful Soup 4的安装包whl文件。安装Beautiful Soup 4的whl文件：在C:\

Python爬虫利器之Beautiful Soup入门详解，实战总结！！！

最新发布

04-11

Python爬虫是编程领域中的一个重要分支，主要用于自动化地从互联网上获取数据。本教程系列将带你从零开始，逐步掌握Python爬虫的核心技术。在这个过程中，我们将深入理解Python语言的基础，学习如何使用requests库...

Python中Beautiful Soup库详细教程

PythonWeb实践

09-23

5519

Python中Beautiful Soup库详细教程

Python爬虫入门（三）requests、BeautifulSoup实例

weixin_43868436的博客

04-30

440

一、大学排名定向爬虫 import requests from bs4 import BeautifulSoup import bs4 '''大学排名定向爬虫''' def find_html(url): # 爬取html页面，返回r.text字符串 try: r = requests.get(url, timeout=30) r.raise_f...

BeatifuSoup获取淘宝商品分类

weixin_30540691的博客

07-02

255

利用Beautiful Soup模块， Beautiful Soup是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。 Beautiful Soup 的中文文档： http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Printing%20...

python爬虫（一）BeautifulSoup简介

Goudan_Wang的博客

05-05

994

BeautifulSoup库的名字取自刘易斯·卡罗尔在《爱丽丝漫游仙境》里的同名诗歌。BeautifulSoup通过定位HTML标签来格式化和组织复杂的网络信息，用简单易用的python对象展现XML结构信息。一、安装Beautifulsoup1、windows平台①安装pip（安装python3时选择安装） ②利用pip安装bs4——命令行模式：`pip install BeautifulSou

对书名的抓取

weixin_34255055的博客

11-04

138

import urllib as requestimport sys sys.path.append('E:/software/python/beautifulsoup4-4.5.3')　　　　//---------这里要引在本地安装的的beautifulsoup4，其作用看本python类博客sys.path.append('E:/software/python/Lib/site-package...

BeatifulSoup的使用

weixin_43723326的博客

12-25

433

一、导入包命令 from bs4 import BeautifulSoup 二、使用于requests库的结果 res = BeautifulSoup(req.text, “lxml”) 三、重要方法 find：返回第一个找到的结果，没有返回None find_all: 返回一个列表，没有就返回空列表四、根据id获取某个标签下所有内容 ``` res = BeautifulSoup(req.t...

python爬虫beautifulsoup4系列1

diantu3011的专栏

12-06

138

前言以博客园为例，爬取我的博客上首页的发布时间、标题、摘要，本篇先小试牛刀，先了解下它的强大之处，后面讲beautifulsoup4的详细功能。一、安装 1.打开cmd用pip在线安装beautifulsoup4 >pip install beautifulsoup4 二、解析器 1.我们主要用第一个html.parser，这个是python...

python3：request+BeautifuleSoup抓取房天下

weixin_42428357的博客

03-03

953

request+BeautifuleSoup抓取房天下开始之前为什么选择这个网站目标数据爬虫文件存储的文件tool.py逻辑思路开始之前这篇代码的目标网站是房天下，涉及到的核心库包含requests、BeautifulSoup等。抓取到的文件存储在本地的csv文件中。抓去了网站全国每一个城市对应的新房、二手房、租房下的房屋信息。为什么选择这个网站网站的反爬虫机制没有那么严格。网上抓取这...

BeatutifulSoup 、Xpath和正则表达式解析网页

萤火之光

04-01

595

BeatutifulSoup解析网页

爬虫通过python的request，re，Beautifuisoup包进行菜鸟教程页面数据的爬取

晴天的博客

05-21

530

关于用request，结合Beautifulsuop进行页面数据的爬取。最近在学习爬虫的过程中，学习到了Beautifulsuop的使用，这个包非常强大，如果你对前端的页面不是很熟悉，没关系他可以帮你找出页面中想要的标签，话不多说了上代码。下面介绍的是爬取：菜鸟教程python3教程的代码：下面展示一些内联代码片。 import requests,re from bs4 import BeautifulSoup def get_html(): url='https://www.runo

Python 爬虫实战（一）：使用 requests 和 BeautifulSoup

吴小龙同學

12-11

1514

Python 基础我之前写的《Python 3 极简教程.pdf》，适合有点编程基础的快速入门，通过该系列文章学习，能够独立完成接口的编写，写写小东西没问题。requestsrequests，Python HTTP 请求库，相当于 Android 的 Retrofit，它的功能包括 Keep-Alive 和连接池、Cookie 持久化、内容自动解压、HTTP 代理、SSL 认证、连接超时、Sessi