使用python requests+re库+curl.trillworks.com神器 实现淘宝页面信息爬取

慕课【Python网络爬虫与信息提取】课程随手练习~!

和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息。

目标:使用python的requests+re库+curl.trillworks.com神器,获取淘宝搜索页面的信息,提取其中的商品名称和价格。

步骤:

1. 导入必要的requests和re库。

2. 使用requests库获取淘宝搜索页面的代码内容,其中使用curl.trillworks.com神器访问页面源码

3. 使用re库对搜索页面中的内容进行搜索匹配,获取想要的商品名称和价格信息

4. 将获取的信息全部打印出来

三点说明:

1. 我们设置的搜索关键词为“书包”,查看淘宝搜索页面源代码,可以看到商品名称是用“raw_title”:"  "的格式表示,价格是用“view_price”:"   " 的格式表示,参以下截图。

2. requests库+curl.trillworks.com神器访问搜索页面源码

如果用requests库直接访问淘宝页面,get到的text页面信息内容为登录界面代码,无法进行后续的代码逻辑分析。

要解决这个问题,我们需要使用curl.trillworks.com这个神器!

在写爬虫的过程中,经常需要更改添加代码中的表头、cookie参数等信

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值