1,需要准备的工作,电脑已经安装好python,如果没装,可以执行去https://www.python.org/官网下载,初学者可以安装轻量级的wingide python开发工具,python安装成功后配置好环境变量,在dos环境使用pip install 模块 将需要用到的模块添加到python中。
需要添加的模块有 lxml,Pool,requests,json,pymongo或者pymysql
1,打开wingide 新建一个python文件 在里面导入我们需要用到的模块
2,寻找我们需要爬取的网页 这里 我以京东的搜索为例 url为:https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&pvid=4e336fe84d3247f0b0795a790b09b422 主要是获取京东手机的名称,价格以及一些其他详细信息
写一个方法获取我们初次爬取的网页 get_sku_id(url)