功能描述
目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。
技术路线:requests re
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
核心操作:
-
浏览器获取cookie和user-agent信息,设置成kv键值对当做请求头参数header放入requests.get()方法中
-
在html页面中找到商品名称和价格信息对应的键值对,并使用相应的正则表达式与之匹配,在进行搜索
-
搜索到匹配的字符串后,需要用eval()和split()函数对其进行去引号处理和切割,并通过索引将其取出来,存入商品列表中
-
输出模板,使用format()函数
-
设置depth变量的for循环实现翻页爬取
爬取时需要模拟淘宝登录信息
#cookie的获取方法:
打开淘宝商品页面,登录你的淘宝账号——F12进入浏览器的开发者调试工具,点击Network,重新刷新页面——选择最上面的search?initiative_id=…的dos文件——找到Request Headers,复制里面的cookie内容,这样,你就能够获得你的cookie了
发起请求的函数
需要使用开发者工具获得浏览器cookies信息
导库
import requests
import re
def gethttptext(url):
try:
kv = {
'cookie':####
, 'user-agent':'Mozilla/5.0'
}
r=requests.get(url