慕课【Python网络爬虫与信息提取】课程随手练习~!
和嵩天老师课程中的示范不同的是,淘宝页面现在不能直接爬取,要修改下访问请求的headers表头信息。
目标:使用python的requests+re库+curl.trillworks.com神器,获取淘宝搜索页面的信息,提取其中的商品名称和价格。
步骤:
1. 导入必要的requests和re库。
2. 使用requests库获取淘宝搜索页面的代码内容,其中使用curl.trillworks.com神器访问页面源码
3. 使用re库对搜索页面中的内容进行搜索匹配,获取想要的商品名称和价格信息
4. 将获取的信息全部打印出来
三点说明:
1. 我们设置的搜索关键词为“书包”,查看淘宝搜索页面源代码,可以看到商品名称是用“raw_title”:" "的格式表示,价格是用“view_price”:" " 的格式表示,参以下截图。
2. requests库+curl.trillworks.com神器访问搜索页面源码
如果用requests库直接访问淘宝页面,get到的text页面信息内容为登录界面代码,无法进行后续的代码逻辑分析。
要解决这个问题,我们需要使用curl.trillworks.com这个神器!
在写爬虫的过程中,经常需要更改添加代码中的表头、cookie参数等信