Python 爬虫学习笔记三：多页内容爬取&内容分析及格式化

最新推荐文章于 2024-10-03 15:18:29 发布

JennyChen333

最新推荐文章于 2024-10-03 15:18:29 发布

阅读量1.3w

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JennyChen66/article/details/78540842

版权

本文是Python爬虫学习笔记的第三部分，主要介绍如何进行多页内容的爬取和分析。内容包括Python中int与string的相互转换，以及通过观察URL变化实现对链家网二手房页面的多页爬取。尽管成功爬取了20页内容，但数据显示格式未做调整。同时推荐了几篇关于爬虫应用和数据利用的文章。

摘要由CSDN通过智能技术生成

Python 爬虫学习笔记三：多页内容爬取&内容分析及格式化

python int 与 string 之间的转换：

Python int与string之间的转化
string–>int

1、10进制string转化为int

　int(‘12’)

2、16进制string转化为int

　　int(‘12’, 16)

int–>string

1、int转化为10进制string

　　str(18)

2、int转化为16进制string

　　hex(18)

2 . 由于链家网上面选中第二页的时候，只是在页面后面多了一个“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的网页只需要循环更新requests 的页面URL

3 . 增加了一个循环之后，可以打印所有的爬取结果

from lxml import etree
import requests

最低0.47元/天解锁文章

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。