python数据分析之爬虫五：实例

最新推荐文章于 2024-08-22 00:03:42 发布

带你去网吧里偷耳机

最新推荐文章于 2024-08-22 00:03:42 发布

阅读量8.6k

点赞数 8

分类专栏： python学习文章标签： python 爬虫数据分析实例分析

本文链接：https://blog.csdn.net/qq_40123329/article/details/81609011

版权

本文介绍了两个Python定向爬虫实例：一是实现淘宝商品比价，通过分析链接规律抓取衬衫商品的价格、名称和购买人数；二是探讨股票数据爬取，比较了新浪和百度股票网站，最终选择东方财富网获取股票列表，并讨论了程序优化技巧，包括编码识别优化和动态进度显示。

摘要由CSDN通过智能技术生成

实例一：淘宝商品比价定向爬虫

打开淘宝，输入衬衫，链接为：

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

第二页的链接为：

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

第三页的链接为：

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=88

发现翻页操作是通过后边的参数s来操作的，每页44个商品。

ps:不知道为什么原来的链接里边 search?q=衬衫复制过来就变成了上述打不开的链接。

哈哈，这里突然发现 https://s.taobao.com/search?q=衬衫（自己码的，不是复制过来的）就可以进去了。

输入https://s.taobao.com/search?q=衬衫&s=44 哈哈发现翻了页了。

这里提取出名称，价格还有付款人数。

首先分析定向爬虫的可行性

进入网址：http://s.taobao.com/robots.txt 查看

发现禁止爬取，但是可以以类人类行为进行爬取。作为教学实例。

程序结构设计

进入衬衫页面，查看网页源代码，按照第一个衬衫的名称，价格，已购人数搜索源码（ctrl+f）查看数据是怎么存在的。

主程序：

import requests
import re

def getHTMLText(url):
    print("")

def parserPage(ilt,html):
    print("")

def printGoodsList(ilt):
    print("")

def main():
    goods="衬衫"   #指定商品名称
    depth=2       #指定爬取的页面个数
    start_url='https://s.taobao.com/search?q='+goods
    infoList=[]
    for i in range(depth):
        try:
            url=start_url+"&s="+str(44*i)
            html=getHTMLText(url)
            parserPage(infoList,html)
        except:
            continue
    printGoodsList(infoList)
    
mai