首先,这里使用的是简单的方法——“requests”模块。这种方法适合初学者使用,如果你想挑战更高级别的你可以自学scrapy爬虫框架,里面有一个“crawlscrapy”分支更是强大;下面就简单的介绍一下爬取这个电商网站。主要还是知道大概的流程之后写爬虫就很简单了。
可能在写完爬虫代码运行一小段后会出现让你登录的情况,这个你可以手动登录,也可以使用python支持的自动点击模块pyautogui。
那么进入正题。。。。。
拿到任务的执行顺序
1.分析目标url
2.构建请求头
3.发起请求
4.接收返回的响应结果,查看获取到的页面源码(有些网站你是需要解码的,用decode方法)
5.这里我是要获取搜索到的商品标题价格等(可以使用xpath、bs4、pyquery进行匹配字段)
下面是源代码。。。。
import requests
from lxml import etree
url = 'https://www.aliexpress.com/wholesale?initiative_id=SB_20190514011143&site=glo&SearchText=phone&page='
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chr