【Python爬虫学习】七、淘宝商品价格爬取(成功爬取)

写在前面:修改request的headers属性,可以跳过登录界面,爬取成功

功能描述:

目标:获取淘宝搜索页面信息,提取其中商品的名称和价格
技术路线:Requests-Re

接口描述:

搜索接口:https://s.taobao.com/search?q=篮球
翻页接口:第二页 https://s.taobao.com/search?q=篮球&s=44
                  第三页 https://s.taobao.com/search?q=篮球&s=88

程序结构设计:

步骤1:提交商品请求,循环获取页面
步骤2:对于每一个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上

代码实现:

备注:用爬虫爬淘宝,得到的页面是登录页面,需要“假登录”,获取头部headers信息,作为参数传给requests.get(url,headers = header),获取方法如下

详细步骤:以Google浏览器为例

1.登录淘宝,进入搜索页,F12
2.选择Network,刷新一下,找到最上方以search?开头的文件,右键

 

3.选择copy,copy as cURL(bush)

4.在https://curl.trillworks.com/,将上一步复制的内容粘贴到curl command窗口
5.复制右侧的headers内容,在程序中用以变量header保存,作为参数传给requests.get(url,headers=header)

#淘宝商品比价
import requests
import re

def getHtmlText(url):
    try:
        header =  {
    'authority': 's.taobao.com',
    'pragma': 'no-cache',
    'cache-control': 'no-cache',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'referer': ,
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cookie': ,
}#隐去了cookie信息和referer信息
        r = requests.get(url,headers = header)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
 
        return r.text
    except:
        print("爬取失败")
        return ""
    
    
def parsePage(ilist,html):
    try:
        plt = re.findall(r'\"view_price\":\"\d+\.\d*\"',html)
        tlt = re.findall(r'\"raw_title\":\".*?\"',html)
        #print(tlt)
        print(len(plt))
        for i in range(len(plt)):
            price = eval(plt[i].split('\"')[3])
            title = tlt[i].split('\"')[3]
            ilist.append([title,price])
        #print(ilist)
    except:
        print("解析出错")
    
def printGoodsList(ilist,num):
    print("=====================================================================================================")
    tplt = "{0:<3}\t{1:<30}\t{2:>6}"
    print(tplt.format("序号","商品名称","价格"))
    count = 0
    for g in ilist:
        count += 1
        if count <= num:   
            print(tplt.format(count,g[0],g[1]))
    print("=====================================================================================================")
    
def main():
    goods = "篮球"
    depth = 1
    start_url = "https://s.taobao.com/search?q="+goods
    infoList = []
    num = 20
    for i in range(depth):
        try:
            url = start_url + '$S=' + str(44*i)
            html = getHtmlText(url)
            parsePage(infoList,html)
        except:
            continue
    
    printGoodsList(infoList,num)
    
main() 

结果输出:

  • 39
    点赞
  • 194
    收藏
    觉得还不错? 一键收藏
  • 62
    评论
### 回答1: intitle:python淘宝爬虫 是一个关键词,用于在搜索引擎中搜索与“python淘宝爬虫”相关的网页标题。爬虫是指一种自动化程序,通过网络抓取互联网上的信息。python是一种广泛应用于爬虫开发的编程语言。 淘宝是中国最大的在线购物平台,许多人希望通过爬虫来收集淘宝上的商品信息,用于市场研究、价格比较等目的。因此,使用intitle:python淘宝爬虫进行搜索,可能会找到一些与淘宝爬虫相关的教程、代码示例、工具等资源。 在进行淘宝爬虫时,一般需要使用Python编程语言,并结合一些爬虫框架或库,如BeautifulSoup、Scrapy等。可以利用这些工具来解析网页内容、提取所需的数据,并将其存储或进行进一步的处理。 当然,在进行淘宝爬虫时,需要遵守相应的法律法规和网站的规定,不得以非法或滥用的方式使用爬虫,要确保爬虫行为的合法性和道德性,避免给他人和自己带来不必要的麻烦。 总之,intitle:python淘宝爬虫是一个用于搜索与淘宝爬虫相关资源的关键词,如果你有这方面的需求,可以通过搜索引擎获取相关的资料和工具,并在遵守法律和道德的前提下进行相关的开发和研究。 ### 回答2: 淘宝爬虫是一种用于从淘宝网站上获取数据的程序。当我们在搜索引擎中使用“intitle:python淘宝爬虫”这样的关键词时,意味着我们希望找到与Python编写的淘宝爬虫相关的内容。 Python是一种功能强大的编程语言,广泛应用于Web开发、数据分析和爬虫等领域。在淘宝爬虫中使用Python可以通过编写代码来模拟用户请求,访问淘宝网页并提取所需的数据。爬虫程序可以自动化地搜索和获取淘宝上的商品信息、价格、评价等数据,进而进行数据分析、比较和其他操作。 编写一个Python淘宝爬虫需要使用一些库和工具,如requests、beautifulsoup和selenium等。requests库用于发送HTTP请求,并获取网页内容;beautifulsoup则用于解析HTML页面,从中提取出所需的数据;selenium可以模拟用户的操作,自动化地进行页面的点击和切换。 当使用关键词“intitle:python淘宝爬虫”进行搜索时,我们可能会找到与淘宝爬虫相关的教程、示例代码或者一些开源的爬虫项目。这些资源可以帮助我们学习如何使用Python编写淘宝爬虫,并根据自己的需求进行修改和扩展。 需要注意的是,爬取淘宝网站的数据涉及到一些法律和道德的问题,如侵犯隐私、侵权等。在开发和使用淘宝爬虫时,我们应该遵守相关的法律法规和网站的使用条款,尊重他人的权益和个人隐私。 ### 回答3: intitle:python淘宝爬虫是指在搜索引擎中,使用关键词"intitle"来筛选结果,从而找到与"python淘宝爬虫"相关的网页标题中包含这些关键词的页面。 淘宝爬虫是一种使用Python编程语言开发的网络爬虫程序,用于自动化地从淘宝网站上获取商品信息。淘宝是中国最大的在线购物平台,有着丰富的商品信息和交易数据,通过爬取这些数据可以实现一系列的商业应用。 使用Python编写淘宝爬虫主要涉及以下几个方面的技术:网络请求、页面解析和数据存储。首先,需要使用Python的网络请求库发送HTTP请求,与淘宝网站建立连接并获取网页内容。接下来,对获取的页面进行解析,使用Python的解析库来提取感兴趣的数据,比如商品的名称、价格、销量等信息。最后,将提取的数据进行存储,可以选择使用数据库或保存为文件的形式。 爬取淘宝数据需要注意一些法律和伦理规范,如尊重网站的robots.txt文件中的规定,不进行恶意爬取和大规模爬取。此外,还应该设置适当的爬取速度和频率,以免给网站带来过大的负担。 总之,intitle:python淘宝爬虫是为了筛选与Python编写的淘宝爬虫程序相关的网页标题,而淘宝爬虫是一种利用Python编程语言实现的爬虫程序,用于自动化地获取淘宝网站上的商品信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 62
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值