2018.2.23淘宝商品信息爬虫

本文介绍了如何使用Python进行简单的网络爬虫,针对淘宝商品信息的抓取。由于商品信息集中在一个标签内,因此无需复杂的BeautifulSoup解析,通过正则表达式即可直接提取所需内容。
摘要由CSDN通过智能技术生成
#以下只是爬取一页可以通过for循环的办法来爬取两页三页甚至更多,

这是for in 的用法>>>languages = ["C", "C++", "Perl", "Python"] >>> for x in languages:... print (x)... CC++PerlPython>>>

import re
import requests

def gettext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return"wrong"
                        

def filltext(ilt,html):
    try:
        string1=re.findall(r'\"view_price\"\:\"[\d.]*\"',html)
        string2=re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(string1)):
            price=eval(string1[i].split(':')[1])
            title=eval(string2[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("no")

def printtext(ilt):
    try:
        tplt='{:4}\t{:8}\t{:16}'
        print(tplt.format("序价","价格","商品名称"))
        count=0
        for g in ilt:
            count=count+1
            print(tplt.format(count,g[0],g[1]))
    except:
        print("nono")


def main():
    goods='口红'
    url='https://s.taobao.com/search?q='+goods
    list1=[]  
    html=gettext(url)
    filltext(list1,html)
    printtext(list1)
main()

这个爬虫没有用bs4,因为看到搜索页面的源代码发现,商品信息全部放在一个标签里面,所以不需要解析页面,直接用re搜索就很简单。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值