python 爬取当当网图书榜

原创

已于 2024-07-16 22:05:23 修改 · 541 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #服务器 #开发语言

于 2024-07-13 09:12:32 首次发布

首先查看当当网好评书单页面，找到翻页的URL参数

直接用requests请求页面

resp = requests.get(url)

找到想要的信息，使用正则表达式把这些信息提取出来

pattern=re.compile('list_num.*?(\d+).<.*?<img src="(.*?)".*?title="(.*?)".*?tuijian">(.*?)</span>.*?title="(.*?)".*?<span>(\d{4}-\d{2}-\d{2}).*?(\d+)次.*?price_n">&yen;(.*?)</span>.*?price_r">&yen;(.*?)</span>',re.S)
items = re.findall(pattern,html)

打印出来看看是否提取到

把信息保存下来就可以了

完整代码如下

import requests
import re
import json
def get_html(url):
    try:
        resp = request

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jamesP777

关注关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python 爬虫实战：深入当当网童书板块，抓取畅销书籍信息

u014481728的博客

02-01

911

当当网作为国内知名的电商平台，拥有丰富的童书资源。了解这些童书的畅销信息，对于家长选择适合孩子阅读的书籍、出版社评估市场趋势以及平台优化推荐策略等方面都具有重要意义。因此，本文将深入探讨如何运用 Python 爬虫技术从当当网童书板块抓取畅销书籍信息，为相关行业提供有益参考。# 初始化 WebDriver# 打开数据库conn = sqlite3.connect("当当网童书数据.db")# 获取已爬取的书籍标题# 遍历书籍详情页try:# 构造书籍详情页 URL。

Python爬虫 当当网图书信息

qq_40298768的博客

09-16

848

# @data 2019/12/4 15:02 import requests from bs4 import BeautifulSoup import random import bs4 my_headers = [ "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", "Mozilla/5.0 (Macinto

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫爬取当当网图书信息（selenium模拟谷歌浏览器版）

最新发布

m0_74149104的博客

10-13

2504

以及爬取图书图片的url的时候，存在爬取到"https://search.dangdang.com/Standard/Search/Extend/hosts/images/model/guan/url_none.png"的情况，这里我们采用另一种爬取方式以求爬取到正确的图片url。由于是模拟谷歌浏览器，需要在运行代码的计算机上下载有谷歌浏览器，同时也需要根据谷歌浏览器的版本下载相应版本的谷歌浏览器驱动放在PyCharm 项目的根目录下，这里就不在过多赘述了，详情参考。

Python爬取当当网图书数据

foreever0830的博客

01-02

1万+

Python爬取当当网图书数据前言：前段时间一直在帮人爬取当当网图书数据。由于技术有限，折腾了挺久的，也在网上借鉴了些经验，一开始一直拿不到自己想要的内容，后来发现了另外一个案例，拿到手后，修改了一些代码，终于实现了目标，在此分享给想爬取当当网图书数据的童鞋。特别感谢前面的作者，给了我思路，代码头有原作者的代号！直接上代码吧！前面部分代码如上图，稍微解释一下（虽然我也很垃圾）：这里是用E...

python爬虫之利用pyquery爬取当当网图书信息

u014543416的博客

11-19

6040

初学爬虫，根据课程学习python爬虫，老规矩，先不管三七二十几，先敲了再说。需求：爬取图书的图片链接、图书的title信息、当前定价、评论数和评价星数共五部分信息。分析：打开当当，搜索python书籍，然后右键，检查网页元素，找到network，然后刷新整个页面，就会返回请求的页面数据，找到左边的红框内的请求链接，然后打开右边的response模块，检查下面返回的内容是否有我们需要的信息，发现没问题，就可以继续往下进行。寻找图片：把鼠标放在网页的图片上直接右键，然后...

Python爬虫——当当网玄幻书籍信息的爬取

MrPandada的博客

10-19

1629

使用python语言，scrapy框架爬取当当网书籍等相关信息。是对scrapy框架实战基础的认识，最详细的巩固scrapy框架使用流程。

Python爬取当当网新书排行榜.zip

01-06

1.使用Python爬取当当网新书排行榜(近7日) 2.使用xpath分析页面 3.使用MySql来存储采集的数据(排名,标题,作者,出版时间,出版社,现在的价格,每本书的图片等) 4.还使用了文件夹来保存每本书的图片(文件命名是使用...

Python爬取当当、京东、亚马逊图书信息代码实例

09-21

本文将探讨如何使用Python来爬取当当、京东、亚马逊这三个知名电商平台上的图书信息。首先，要实现这个功能，我们需要安装一些必要的Python库，如BeautifulSoup、requests和pymysql。BeautifulSoup是一个用于解析...

爬取当当网图书数据并保存至本地Excel的Python实现

06-05

本文提供的爬虫程序是一个基础的Web爬虫示例，适用于爬取当当网的图书数据并存储至Excel文件。在实际应用中，可以根据需求调整爬取的页数、增加异常处理机制，以及优化延时策略，以适应更复杂的网络环境和更大量的...

基于Python爬虫对当当网图书信息采集（10w条数据）+代码

2301_79655576的博客

04-09

1007

通过对10万条当当图书网数据的采集和分析，我们能够深入理解当前图书市场的动态，为出版社、作者和读者提供有价值的市场洞察。

python爬取dangdang指定图书数据

01-02

使用python selenium爬取当当网商品搜索相关结果，并下载图片，写入xls、保存到mongo数据库

当当图书榜_当当图书榜html_当当图书榜_当当网图书html_html当当网_numberd77_

10-03

用html+css制作的一个当当图书网不用修改直接使用

html5当当图书网代码

11-10

html第八天上机练习4作业，代码。

当当图书购物网源码+数据库

12-02

开发工具：MyEclipse + Tomcat + MySql 技术实现：Struts2 + Ajax + JDBC + jQuery + JSP 项目描述：该项目是基于MVC思想的电子商务系统，系统分为四个模块：用户模块（实现用户的注册、登录等）、产品浏览模块（主界面、分类浏览等）、购物车模块（产品添加，删除，恢复，数量更改）、订单模块（订单生成，订单管理）。

html作业当当图书榜

07-17

完整版本可运行，本压缩包为html+css课堂作业，可做参考答案使用

weixin_42378973的博客

06-16

453

2018.041 概述主题网络爬虫, 根据一定的网页分析算法过滤与主题无关的链接保留主题相关的链接井将其放入待抓取的URL队列；然后根据一定的搜索策略从队列中选择下一步要抓取的 URL, 并重复上述过程, 直到达到某一条件时停止[1]。如果采取手动从互联网中获取多网页信息,耗费人力和精力过大, 而网络爬虫就能很好地弥补这个缺陷。同时利用网络爬虫可以过滤掉很多手动采集时遇到的无关数据, 采集数...

python课程设计——当当网Python图书数据分析

热门推荐

weixin_48874360的博客

12-28

1万+

一、数据获取本次项目数据来源为爬虫获取，目标为为当当网上关于python的书籍爬虫主要思路：通过观察当当网，观察结构，选用适合的方法。先进行单页的数据爬取，再进行多页爬取；解析方法为xpath方法，爬取目标为：书名、价格、作业、出版社、出版时间、商品链接、评论数量；最后将爬取的数据保存到csv文件当中。爬虫代码如下： import requests from lxml import etree import re import csv def get_page(): # 数据的多页爬取，经过观

python完整的爬虫实例（当当图书）

翔坨儿的博客

07-12

5406

整理了一个简单的爬虫实例，用的是python 3.7 一、找到目标网站，分析网站代码结构以当当为例： http://search.dangdang.com/?key=%D0%C4%C0%ED%D1%A7&act=input&page_index=1 我们需要获取图书列表中的书名、作者、图片等信息，首先需要找到它的HTML代码段，分析它的结构，以便用合适的方法get到我们需...

利用scrapy爬取当当的python图书数据

renyuan_99的博客

01-11

1486

前言这里采用的是scrapy爬虫，安装就不用说了，这个真的教不了，我推荐安装anancond3。爬虫部分创建项目我这里是利用pycharm来写的，打开pycharm里面的命令行，运行 scrapy satartprocject dangdang cd spiders scrapy genspider book 这样就可以创建好项目了利用这样可以来调试，或者我们可以采用断点调试，scrapy很适合断点调试的。 scrapy shell "http://search.dangdang.com/?

python爬取当当网儿童图书榜引言

06-03

在本文中，我们将介绍如何使用Python爬取当当网儿童图书榜的数据。通过本文的学习，你将了解到Python爬虫的基本原理和操作方法，以及如何使用Python库来进行网页数据的解析和存储。同时，你还将学到如何使用Python的...