基于
Python
的淘宝商品价格爬虫程序设计与实现
蔡振海
【摘
要】
网上商品种类繁多,价格也各异,如何在海量信息中自动、快速获取
某种商品的价格成为一个急需解决的问题。本文以
Python
语言为基础,使用
Requests
库和
re
模块进行程序设计,通过商品关键词对商品的信息及价格进
行快速爬取,以淘宝商品价格为例,实现了商品价格的快速获取。
【期刊名称】
《科学咨询》
【年
(
卷
),
期】
2019(000)038
【总页数】
1
【关键词】
Python
;爬虫;商品价格
基金项目:
2018
年度江苏省教育信息化研究课题项目
(
课题批号:
20180040)
。
网络爬虫是一种能自动地从海量的
web
资源中抓取网页内容的程序
[1]
。现如
今,网络信息的数据量非常大,手动收集信息的方式已经不适用了。快速、自
动地获取信息是目前信息获取的趋势。爬虫的特点正符合这一要求。它能在互
联网资源中通过网址一个网页、一个网页地爬取
[2]
。
一、商品价格爬虫程序设计
(
一
)
编程环境
本文使用
Linux
作为编程的操作系统,编程语言为
Python3.X
,集成开发环境
为当下流行的
Pycharm
。
(
二
)
技术原理
利用
Python
的
Requests
库向目标网页发送
Request
。
Requests
库能自动爬
取
HTML
页面并自动网络请求提交
[3]
。
Requests
库的
get
方法能构造一个向