Python3.x学习笔记[1]：2种简单爬虫获取京东价格

Cleric-X

于 2014-04-11 21:14:29 发布

阅读量2.7k

点赞数

分类专栏： Python3.x学习笔记文章标签： python 爬虫京东

本文链接：https://blog.csdn.net/lidongone/article/details/23474499

版权

本文介绍了Python3.x初学者如何使用re和urllib基础库抓取京东商品价格，不涉及复杂的BeautifulSoup4和Scrapy库。

摘要由CSDN通过智能技术生成

因为只是初学，所以没有借助beautiful soup4和Scrapy这些库，只用到了re与urllib这两个内置库和一些built-in functions

以下内容学自网络

方法一：通过京东移动商城（因为它没有把价格藏在js中）

# codeing=utf-8
import urllib.request
import re
#通过京东移动接口
url = 'http://item.jd.com/997951.html'#原本的网址
jdid = re.search(r'/(\d+)\.html',url).group(1)#原本的网址提取出商品ID，即997951


url = 'http://m.jd.com/product/'+str(jdid)+'.html'#转换成为移动商城的url
html = urllib.request.urlopen(url).read().decode('utf-8')#通过对源代码进行utf-8解码
aa = re.findall(r'<font color="red" style="font-family:Arial;font-weight:bold;font-size:18px">&.*</font>', html)[0]#这里使用的是findall，可以用别的

aa = re.findall(r'\d+\.\d+&