Python爬虫之抓取豆瓣信息全部网页显示

最新推荐文章于 2020-05-01 20:33:56 发布

西蒙先生、

最新推荐文章于 2020-05-01 20:33:56 发布

阅读量750

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_35661436/article/details/52194522

版权

Python 专栏收录该内容

21 篇文章 1 订阅

订阅专栏

from bs4 import BeautifulSoup
import requests


urls = ['https://read.douban.com/ebooks/category/new/?cat=book&sort=new&start={}.'.format(str(i))  for i in range(0, 100, 20)]#这里有一个format函数和range可以实现将网页全部打印出来
for url in urls:
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    fooknames = soup.select('body > div > div.main > article > section > div.bd > ul > li > div.info > div.title > a')
    writers = soup.select('body > div > div.main > article > section > div.bd > ul > li > div.info > p > span > span.labeled-text > a')
    evaluations = soup.select(' body > div > div.main > article > section > div.bd > ul > li > div.info > div.article-desc-brief')
    for fookname,writer,evaluation in zip(fooknames, writers, evaluations):

        print('书名:%-30s作者:%-40s评价:%-40s'%(fookname.get_text(),writer.get_text(),evaluation.get_text()))

ps:

这里有一个format函数和range可以实现将网页全部打印出来

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

西蒙先生、

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python 爬虫：抓取豆瓣top250电影数据

weixin_40620502的博客

11-24

7856

接到项目需求为爬取豆瓣top250电影数据，主要包含以下四个字段信息：‘电影名称’,‘上映年份’,‘豆瓣评分’,‘点评人数’ 本文通过re正则对豆瓣网页数据进行解析提取 import requests import re import pandas as pd df = pd.DataFrame(columns=['电影名称','上映年份','豆瓣评分','点评人数']) #创建表头 #创建空列表用于存放数据 movie_name =[] first_year =[] douban_score =[

调用豆瓣API抓取图书信息的php文件

10-07

自己山寨的豆瓣网站的部分源码，主要利用了豆瓣的API来获取书籍的名称、作者、封面等资料，值得借鉴！

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫-爬取豆瓣信息(selenium+xpath)

weixin_33701617的博客

12-08

686

====================== ==================================== 利用selenium模拟豆瓣登录： 1 ''' 2 利用selenium模拟登录豆瓣 3 需要输入验证码 4 思路： 5 1. 保存页面成快照 6 2. 等待用户手动输入验证码 7 3. 继续自动执行提交等动作 8 9 '''...

Python之简单抓取豆瓣读书信息

围炉夜话

09-24

1088

最近出差学习，闲来撸一把 Python。看语法书这些，真是看完就忘，还不如来写点小程序，有实践性又有趣。我的环境是Ubuntu 17，开始之前先装几个依赖包，用于解析 html 文件。sudo apt install python-lxml,python-requests小程序实现从豆瓣读书上抓取评分8以上，且评分人数不低于800人的书籍。这里取了一个种子，是刘震云老师的《一句顶一万句》。from

爬取新闻网站新闻列表的python程序

04-23

本程序可以爬取新闻网站的新闻列表，本代码以中国地质大学（武汉）官网为例，如果需要更换，可以直接更换baseURL，然后打开控制台分析代码结构，适当修改即可。

Python实例：网络爬虫抓取豆瓣3万本书-详细注释版

03-16

对应的详细说明请看 http://blog.csdn.net/u012175089/article/details/60962685 内容简单，用来学习非常适合

python爬虫-爬取豆瓣音乐

最新发布

05-30

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...

Python 爬虫源码，抓取豆瓣网图书信息

05-23

本项目专注于使用Python爬虫抓取豆瓣网上的图书信息，这是一个非常实用的技能，特别是对于数据分析、信息收集或者个人兴趣爱好者而言。下面我们将深入探讨这个项目涉及的关键知识点。首先，项目的核心在于数据的...

基于python爬虫对豆瓣影评分析进行爬取的课程设计.zip

12-08

在本课程设计中，我们将深入探讨如何利用Python爬虫技术来获取并分析豆瓣电影网站上的影评数据。Python爬虫是获取大量网络数据的有效手段，尤其适用于数据分析和挖掘项目。以下是一些关键知识点： 1. **Python基础*...

一个简单的python爬虫程序爬取豆瓣热度Top100以内的电影信息

09-20

在本文中，我们将探讨如何使用Python编写一个简单的爬虫程序，以抓取豆瓣电影热度Top100内的电影信息。首先，我们需要理解网络爬虫的基本概念。网络爬虫是一种自动化程序，它模仿人类浏览网站的行为，以获取并处理有...

[爬虫]抓取知乎百万用户信息之总结篇

weixin_30247159的博客

01-08

126

点击我前往Github查看源代码别忘记star 本项目github地址：https://github.com/wangqifan/ZhiHu 第一个大错误是没能及时释放非托管资源，导致程序运行长的之后抛出OutOfMemoryException. 这个小Demo主要的非托管资源一个是http请求的httpWebresopne和流，另外一个是Redis...

小项目（爬虫） Python爬虫爬取豆瓣TOP250电影数据并存入Mysql数据库（附Python代码）

koko_TT的博客

02-28

6637

说明适用范围该项目是本人才接触Python爬虫的时候所编写，出发点是熟悉爬虫数据爬取的特性，以及结合Mysql数据库的简单应用，所以功能上较为简单。代码注释较少但编写以见名知意为原则，并且用到的函数与逻辑均较为简单，本人认为不会过分影响阅读及学习。适合才接触爬虫的新手学习，但需要一定耐心。该例程可以做更多的事吗？完全可以，虽然该爬虫是一个单线程最基本的爬虫，但是对数据爬取的封装是...

python爬取豆瓣电影网站数据

caesarding07

05-01

1970

python爬取豆瓣电影网站数据准备阶段准备阶段 python爬虫入门经验

python爬取网站代码（详细步骤讲解）

qq_43723172的博客

02-28

1万+

爬取步骤讲解

python爬虫之获取豆瓣电影信息

Vincent's tech blog

09-10

2844

爬虫的基本原理——通用框架选取种子URL；将这些URL放入待抓取的URL列队；取出带抓取的URL，下载并存储进已下载网页库中。此外，讲这些URL放入带抓取URL列队，进入下一循环。分析已抓取列队中的URL，并且将URL放入带抓取URL列队，从而进去下一循环。本质就是发起请求 --&amp;gt; 获取响应内容 --&amp;gt; 解析内容 --&amp;gt; 保存数据...

爬虫解析网页发现返回内容不全

roc_ever的博客

04-23

4733

最近爬一个论文网站，使用beautifulsoup和xpath，根据结点的指向一步步写最后发现返回的response对象的text内容不全。。。最后发现这个网站的网页是动态的，网页中的内容有些是js异步加载的。解决方法：selenium ...

Python爬虫学习：爬取豆瓣数据

尘埃zza的博客

03-06

2957

Python的学习起源于帮助他人找bug，现阶段可能会做一些不同爬虫相关的Demo，后续如果有时间继续深入学习，近期没有时间，现不列于计划之内。学习主要途径和内容：廖雪峰的官方网站学习过程中的一些demo：我的GitHub 现在开始总结豆瓣电影 Top 250 爬取数据的过程豆瓣电影 Top 250 url：https://movie.douban.com/top250 获取的数据包括排名...

爬虫小白——利用pycharm爬取网页内容

Python爬虫之抓取豆瓣信息 全部网页显示

Python爬虫之抓取豆瓣信息全部网页显示