python爬取京东所有iphone的价格和名称

最新推荐文章于 2021-02-04 06:20:05 发布

djd已经存在

最新推荐文章于 2021-02-04 06:20:05 发布

阅读量4.1k

点赞数

分类专栏： python网络爬虫 Scrapy爬虫教程文章标签：爬虫 python unicode 京东正则

本文链接：https://blog.csdn.net/djd1234567/article/details/45379019

版权

本文介绍了一个简单的Python爬虫程序，用于抓取京东网站上所有iPhone的价格和名称。作者在尝试使用高级库如creep时遇到问题，于是选择使用正则表达式(re.search)来实现。代码实现简洁，适合初学者学习。

摘要由CSDN通过智能技术生成

原本想升一下级，用一下creep神马的，但是正则今天突然出了点小问题，我就生气了，就用正则抓取了一下。

这个正则可以用re.search 或者 re.findall都可以，我比较喜欢用search因为可以直接提取结果不用在过滤了。

代码如下，这个小爬爬比较简单。

#-*- coding:utf-8 -*-

import urllib2
import json
import re

SearchIphoneUrl = 'http://search.jd.com/Search?keyword=%E8%8B%B9%E6%9E%9C%E6%89%8B%E6%9C%BA&enc=utf-8&qr=&qrst=UNEXPAND&as_key=title_key%2C%2C%E6%89%8B%E6%9C%BA&rt=1&stop=1&click=&psort=1&page=1'
header = {'User-Agent':'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0','Accept':'*/*'}

def getHtmlSrc(url,header):
    req = urllib2.Request(url,header)
    res = urllib2.urlopen(url,timeout = 5)
    htmlSrc = res.read()
    return htmlSrc

def saveHtm