说明
爬取小米有品:
把两个链接放到了一起,运行一次就可以全部获取(约700)
使用的是selenium+chrome+lxml的组合
(也很快,因为就一个页面)
输出:
程序会生成三个文件,两个csv和一个xls
csv体积小巧,通用性强
data_mi.csv使用utf-8编码
data_mi-gbk.csv使用gbk编码
xls就是excel的格式
(gbk是中文编码,可以只用excel打开,utf-8是python默认编码,可由专业工具打开)
贴上代码
在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,784758214
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from lxml import etree
import csv
import xlwt
import time
class Spider:
def __init__(self):
self.runtime = None
self.url = [
'https://www.xiaomiyoupin.com/goodsbycategory?firstId=115&secondId=115&title=%E5%AE%B6%E7%94%A8%E7%94%B5%E5%99%A8&spmref=YouPinPC.$Home$.list.0.90827029',
'https://www.xiaomiyoupin.com/goodsbycategory?firstId=116&secondId=11