来源
抓取
选择一种商品搜索然后爬取商品价格信息。
import requests
res=requests.get('https://search.jd.com/Search?keyword=%E8%8B%A6%E7%93%9C&enc=utf-8&suggest=1.his.0.0&wq=&pvid=0138043bdf1d4750b99643554273c191').text
print(res)
发现结果为
<script>window.location.href='https://passport.jd.com/uc/login'</script>
需要登录,就加入User-Agent这个请求头,如图的值。
import requests
headers={
'User-Agent': '填写需要的部分'
}
url='https://search.jd.com/Search?keyword=%E8%8B%A6%E7%93%9C&enc=utf-8&suggest=1.his.0.0&wq=&pvid=0138043bdf1d4750b99643554273c191'
res=requests.get(url=url,headers=headers).text
print(res)
得到网址。
然后开始针对价格的代码位置
复制xpath值,对比
'//*[@id="J_goodsList"]/ul/li[1]/div/div[2]/strong/i'
'//*[@id="J_goodsList"]/ul/li[2]/div/div[2]/strong/i'
变化在li元素上
选择分两部分xpath
from lxml import etree
list=etree.HTML