python数据分析之爬虫五:实例

实例一:淘宝商品比价定向爬虫

打开淘宝,输入衬衫,链接为:

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

第二页的链接为:

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

第三页的链接为:

https://s.taobao.com/searchq=%E8%A1%AC%E8%A1%AB&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180812&ie=utf8&bcoffset=0&ntoffset=6&p4ppushleft=1%2C48&s=88

发现翻页操作是通过后边的参数s来操作的,每页44个商品。

ps:不知道为什么原来的链接里边   search?q=衬衫   复制过来就变成了上述打不开的链接。

哈哈,这里突然发现  https://s.taobao.com/search?q=衬衫(自己码的,不是复制过来的)就可以进去了。

输入https://s.taobao.com/search?q=衬衫&s=44           哈哈发现翻了页了。

这里提取出名称,价格还有付款人数。

首先分析定向爬虫的可行性

进入网址:http://s.taobao.com/robots.txt  查看

发现禁止爬取,但是可以以类人类行为进行爬取。作为教学实例。

 

程序结构设计

进入衬衫页面,查看网页源代码,按照第一个衬衫的名称,价格,已购人数搜索源码(ctrl+f)查看数据是怎么存在的。

主程序:

import requests
import re

def getHTMLText(url):
    print("")

def parserPage(ilt,html):
    print("")

def printGoodsList(ilt):
    print("")

def main():
    goods="衬衫"   #指定商品名称
    depth=2       #指定爬取的页面个数
    start_url='https://s.taobao.com/search?q='+goods
    infoList=[]
    for i in range(depth):
        try:
            url=start_url+"&s="+str(44*i)
            html&
  • 8
    点赞
  • 84
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值