爬虫案例（读书网）

最新推荐文章于 2024-09-17 13:30:28 发布

eqwaak0

最新推荐文章于 2024-09-17 13:30:28 发布

阅读量1.8k

点赞数 11

分类专栏：爬虫文章标签：爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eqwaak0/article/details/139306808

版权

爬虫专栏收录该内容

13 篇文章 34 订阅

订阅专栏

一.我们还是使用简单的bs4库和lxml，使用xpath：

导入下面的库：

import requests
from bs4 import BeautifulSoup
from lxml import etree

我们可以看见它的div和每个书的div框架，这样会观察会快速提高我们的简单爬取能力。

二.实例代码：

headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'}
link="https://www.dushu.com/"
r=requests.get(link,headers=headers)
r.encoding='utf-8'

soup=BeautifulSoup(r.text,'lxml')
house_list=soup.find_all('div',class_="border books-center")
html=etree.HTML(r.text)
    # name=html.xpath('//div[@class="property-content-title"]/h3/text()')
# for house in house_list:
#     name=soup.find('div',class_="nlist").a.strong.text()
#
#     print(name)
name=html.xpath('//div[@class="bookname"]/a/text()')
# href=html.xpath('//div[@class="nlist"]/div/ul/li/a/@href')

print(name)
for i in name:
    print(i)

运行结果如下：

我们成功抓取了网页上书籍的名字，我们可以把它放入一个文件或者文本里面。

三.总结

我们简单的抓取书籍，先找到它需要的大div或者是ur、然后在里面找到自己需要抓取的数据，我们开始练习这样简单案例，会提高爬虫的理解。下次我会加上数据库和可视化

关注

11
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

eqwaak0 CSDN认证博客专家 CSDN认证企业博客

码龄1年

65: 原创

73万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2305: 积分

1700: 粉丝

1630: 获赞

42: 评论

795: 收藏

私信

关注

热门文章

分类专栏

信息差 21篇
Python 3篇
爬虫 13篇
matplotlib 4篇
Pandas 1篇
scrapy 6篇

最新评论

8月6(信息差）
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一盏明灯，指引我前进，你的博文总是充满了深刻见解，对我的学习帮助很大，真的很感激你的辛勤努力。非常感激你的专业知识传授。
Matplotlib(小案例）
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
5月26（信息差）
eqwaak0: thanks！
5月26（信息差）
征途黯然.: I've learned a lot from this article about 5月26信息差; it has great depth.
5月6（信息差）
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章一直都是我的学习指南，内容详实，让我从中获益良多，博主的文字如同一首美妙的乐曲，总是能触动我的心弦，期待你的不断创作。你的博客内容深入浅出，总是让我不再感到学习的困难，真的很感谢你的分享。继续前进吧！

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

eqwaak0 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。