Python爬虫笔记一

翻译 2015年11月19日 19:47:19

学习网络爬虫中,不断的学习。在网上看到了虫师写的关于网络爬虫的文章,看着不错就学习了一下。‘

虫师日志地址:虫师-网络爬虫

在windows7 Python2.7下运行了该文章中的程序,可以运行,可以得到所要检索的图片。虽然程序有些不太明白,但是作为自己学习爬虫的第一步大笑


#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)


python-慕课网-Python开发简单爬虫-蚂蚁-读书笔记

本文阅读并记录自己的学习笔记。感谢蚂蚁大神的分享。目录: 爬虫基础 1.1 爬虫课程介绍 1.2 爬虫简介 1.3 爬虫架构 1.4 URL管理模块 1.5 网页下载器:urllib2 1.6 网页...
  • u012052268
  • u012052268
  • 2017年04月27日 16:07
  • 803

python 爬虫笔记

from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http:...
  • qq_16103331
  • qq_16103331
  • 2016年09月26日 16:10
  • 585

Python开发简单爬虫--学习笔记

本文内容来自于慕课网《Python开发简单爬虫》,感兴趣的同学可以去看视频。http://www.imooc.com/learn/563 一个简单的爬虫主要分为 调度器、URL管理器、网页下载器、网...
  • qwerty_bibabo
  • qwerty_bibabo
  • 2016年09月02日 09:47
  • 1453

python爬虫笔记-持续更新

爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。 这里我们...
  • weixin_38500014
  • weixin_38500014
  • 2018年01月26日 17:06
  • 22

python 网站爬虫 下载在线盗墓笔记小说到本地的脚本

python 网络爬虫 下载在线小说 ..................最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达...
  • u013055678
  • u013055678
  • 2014年10月14日 15:22
  • 9305

python网络爬虫学习笔记之实力爬虫(

淘宝商品比价定向爬虫  插播一句 过几天就是双十一了,emmmmmmmm又要剁手了四不四 -----------------------------------------------------...
  • jiaowosiye
  • jiaowosiye
  • 2017年11月06日 20:27
  • 78

Python爬虫一(入门综述、基础)

转载:静觅 » Python爬虫入门一之综述 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维...
  • freeking101
  • freeking101
  • 2017年03月01日 21:27
  • 553

Python爬虫进阶一之爬虫框架概述

爬虫入门之后,我们有两条路可以走。
  • qq_37267015
  • qq_37267015
  • 2017年03月20日 10:06
  • 1148

黑马程序员_温习 正则表达式 (个人笔记)摘要(正则表达式-----网页爬虫)

摘要(正则表达式-----网页爬虫) 正则表达式:(字符串判断方式String) |--匹配:matches |--切割: split |--替换: replaceAll |--获取  上边三...
  • u013131432
  • u013131432
  • 2013年12月16日 22:39
  • 375

Python 爬虫笔记(对维基百科页面的深度爬取)

*#! /usr/bin/env python #coding=utf-8 import urllib2 from bs4 import BeautifulSoup import re im...
  • qq_16103331
  • qq_16103331
  • 2016年09月27日 15:05
  • 1483
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫笔记一
举报原因:
原因补充:

(最多只允许输入30个字)