Python之道-爬虫1

最新推荐文章于 2017-10-31 17:01:40 发布

ChengKaoAO

最新推荐文章于 2017-10-31 17:01:40 发布

阅读量446

点赞数

分类专栏： Python-术文章标签： python 爬虫编程语言

本文链接：https://blog.csdn.net/zmeixuan/article/details/76652590

版权

Python-术专栏收录该内容

25 篇文章 0 订阅

订阅专栏

“形而上者为之道，形而下者为之器“

学编程语言，应学习其核心思想，掌握其精髓！应懂得透过现象抓到本质的东西；
建立此系列博文，理清自己的思路，Python大道渊源流长，且行且珍惜。

爬虫原理

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由我们来控制；
如果它在抓取一个网页，在这个网中发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说触手可及，分分钟爬下来不是事儿。

怎么实现？？

1、模拟浏览器访问，获取html源代码

2、通过正则匹配，获取指定标签中的内容

3、将获取到的内容写到文件中

实战演练

一，获取整个页面数据

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print html

二，筛选页面中想要的数据

　Python 提供了非常强大的正则表达式
　
　

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      

html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

三，将页面筛选的数据保存到本地

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)