2021-01-16

最新推荐文章于 2024-06-01 21:43:54 发布

mr muscle

最新推荐文章于 2024-06-01 21:43:54 发布

阅读量105

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_51462127/article/details/112712582

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

用python爬取4332条粽子数据进行分析，再送15盒粽子给大家
http://mp.weixin.qq.com/s?__biz=MzU5Nzg5ODQ3NQ==&mid=2247489828&idx=1&sn=74ee26e2772cde36cc8263a7f0979cf2&chksm=fe4d3ca0c93ab5b6eb0ec88c9223af37f66a876dc92935d40800822aa98d5cb7d5f66bc309f0&mpshare=1&scene=23&srcid=0116sANIaGIiRfirhkUgI3Cv&sharer_sharetime=1610782913925&sharer_shareid=0bdfc80292551405608761c500fd5226#rd

# -*- coding: utf-8 -*-
"""
Created on Wed Jun 17 22:29:52 2020

@author: 朱小五

微信公众号: 凹凸数据

公众号ID: alltodata
"""

from selenium import webdriver
import time
import csv
import re

# 搜索商品，获取商品页码
def search_product(key_word):
    # 定位输入框
    browser.find_element_by_id("q").send_keys(key_word)
    # 定义点击按钮，并点击
    browser.find_element_by_class_name('btn-search').click()
    # 最大化窗口：为了方便我们扫码
    browser.maximize_window()
    # 等待15秒，给足时间我们扫码
    time.sleep(15)
    # 定位这个“页码”，获取“共100页这个文本”
    page_info = browser.find_element_by_xpath('//div[@class="total"]').text
    # 需要注意的是：findall()返回的是一个列表，虽然此时只有一个元素它也是一个列表。
    page = re.findall("(\d+)",page_info)[0]
    return page

# 获取数据
def get_data():
    # 通过页面分析发现：所有的信息都在items节点下
    items = browser.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')
    for item in items:
        # 参数信息
        pro_desc = item.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text
        # 价格
        pro_price = item.find_element_by_xpath('.//strong').text
        # 付款人数
        buy_num = item.find_element_by_xpath('.//div[@class="deal-cnt"]').text
        # 旗舰店
        shop = item.find_element_by_xpath('.//div[@class="shop"]/a').text
        # 发货地
        address = item.find_element_by_xpath('.//div[@class="location"]').text
        #print(pro_desc, pro_price, buy_num, shop, address)
        with open('{}.csv'.format(key_word), mode='a', newline='', encoding='utf-8-sig') as f:
            csv_writer = csv.writer(f, delimiter=',')
            csv_writer.writerow([pro_desc, pro_price, buy_num, shop, address])

def main():
    browser.get('https://www.taobao.com/')
    page = search_product(key_word)
    print(page)
    get_data()
    page_num = 1
    while int(page) != page_num:
        print("*" * 100)
        print("正在爬取第{}页".format(page_num + 1))
        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))
        browser.implicitly_wait(15)
        get_data()
        page_num += 1
    print("数据爬取完毕！")

if __name__ == '__main__':
    key_word = "粽子"
    browser = webdriver.Chrome()
    main()

mr muscle

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-01-16

用python爬取4332条粽子数据进行分析，再送15盒粽子给大家http://mp.weixin.qq.com/s?__biz=MzU5Nzg5ODQ3NQ==&mid=2247489828&idx=1&sn=74ee26e2772cde36cc8263a7f0979cf2&chksm=fe4d3ca0c93ab5b6eb0ec88c9223af37f66a876dc92935d40800822aa98d5cb7d5f66bc309f0&mpshare=1&amp
复制链接

扫一扫