Python爬虫笔记一

翻译 2015年11月19日 19:47:19

学习网络爬虫中,不断的学习。在网上看到了虫师写的关于网络爬虫的文章,看着不错就学习了一下。‘

虫师日志地址:虫师-网络爬虫

在windows7 Python2.7下运行了该文章中的程序,可以运行,可以得到所要检索的图片。虽然程序有些不太明白,但是作为自己学习爬虫的第一步大笑


#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)


举报

相关文章推荐

Python与硬件学习笔记:蓝牙(一)

蓝牙这个名词相信大家都耳熟能详了,手机有蓝牙、电脑有蓝牙、耳机也有蓝牙,大家也大概知道蓝牙是干什么的,怎么用的。但是,作为我们“专业”的学生我们必须要彻底的了解它,别人问起时,我们也能道出两句来。 了...

Python与硬件学习笔记:蓝牙(二)

大家也可以按附录中的AT命令详解来设置蓝牙模块,下面我们用蓝牙模块跟树莓派连接来制作一个蓝牙无线通信开关,手机充当遥控器,我们需要将蓝牙模式设为从模式,波特率为9600,配对密码为0000。 蓝牙无线...

精选:深入理解 Docker 内部原理及网络配置

网络绝对是任何系统的核心,对于容器而言也是如此。Docker 作为目前最火的轻量级容器技术,有很多令人称道的功能,如 Docker 的镜像管理。然而,Docker的网络一直以来都比较薄弱,所以我们有必要深入了解Docker的网络知识,以满足更高的网络需求。

Struts学习笔记(一):Struts.xml的配置

Struts的使用总结 以前学习Struts框架的时候,自己写的项目代码,现把Struts的知识从中提取出来做总结整理。这些只是我自己学习框架时候的理解,有什么不对,请指出哈。 每个加了Struts框...

Python与硬件学习笔记:超声波

超声波 超声波是一种频率高于20000赫兹的声波,它的方向性好,穿透能力强,易于获得较集中的声能,在水中传播距离远,可用于测距、测速、清洗、焊接、碎石、杀菌消毒等。在医学、军事、工业、农业上有很多的应...

Python爬虫urllib笔记(一)

#-*-coding:utf-8-*- import urllib url="http://www.163.com/" htlm=urllib.urlopen(url) #所有gb2312全部...

python 爬虫笔记

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http:...

Python 爬虫笔记(2)

我们如何使用Python而不是浏览器,利用有道翻译,来翻译文本?   我们首先打开有道,右键,点击“检查”,或者“审查元素”,我们可以看到网页的源代码,如图1所示:   我们点击network,如...

python爬虫项目笔记

一、最简单的爬虫:思路:1,将网页生成页面对象,以获取页面信息 2,通过页面信息,获取图片地址 3,通过地址,下载图片代码步骤:#由于本程序用到url相关模块和正则表达式,导入 import ur...

python爬虫学习笔记

一、爬虫思路: 对于一般的文章而言,思路如下 1.通过主页url获取主页源码,从主页源码中获得“标题”链接(如想要抓取知乎上的新闻,就获得主页上的新闻链接),2.继续通过“标题”链接获得“标题”源...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)