Python爬虫笔记一

翻译 2015年11月19日 19:47:19

学习网络爬虫中,不断的学习。在网上看到了虫师写的关于网络爬虫的文章,看着不错就学习了一下。‘

虫师日志地址:虫师-网络爬虫

在windows7 Python2.7下运行了该文章中的程序,可以运行,可以得到所要检索的图片。虽然程序有些不太明白,但是作为自己学习爬虫的第一步大笑


#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)


相关文章推荐

基于百度API接口的python数据爬虫解析1【笔记】

基于百度API接口的python数据爬虫解析1【笔记】目录 数据来源 数据获取 需求通过城市出行路径数据爬取,来分析不同场景下的城市出行状况 场景:分布在城市不同位置的小伙伴想一起约饭,从14个起点...

学习笔记:python爬虫爬取安徽师范大学教务管理系统期末成绩

python初学者,首先感谢廖雪峰老师的基础课程python3教程,只是大概浏览了一遍,有题的做题,很多东西不是很熟练,本着学以致用的态度,找了些简单的爬虫教程看了看,结合遇到的问题,决定来获取学校教...
  • ysh0566
  • ysh0566
  • 2016年08月23日 22:40
  • 665

精通python网络爬虫笔记一

urllib使用 1 一个简单的例子 2 保存在文件中并查看部分信息 4 User-Agent 和 模拟Header 5 超时设置 6 HTTP请求 61 使用get请求访问百度并搜索一个关键词 62...

爬虫学习笔记二、 python3.4连接mysql数据库

 在python3.4版本中不支持python2.X中的MySQLdb,需要导入pymysql包,不要安装错了。 1、CMD下输入pip install pymysql 导...
  • LCYong_
  • LCYong_
  • 2016年11月21日 21:16
  • 1344

python爬虫学习笔记3—— 抓取淘宝MM照片

系列 ——  Python爬虫实战 题目 ——  抓取淘宝MM照片 语言 ——  Python 目标 ——  1、抓取淘宝MM的姓名,头像,年龄    2、抓取每一个MM的资料简介以及写真图片    ...

python2.7爬虫学习笔记(一)---Urllib库的使用

扒一个网页 构造Request post和get数据传送 设置headers Proxy(代理)的设置 Timeout设置 URLError异常处理 cookie的使用...
  • SirM2z
  • SirM2z
  • 2015年06月03日 20:14
  • 5824

python爬虫之正则表达式学习笔记一

学习爬虫一段时间了,觉得学正则表达式是个好的契机, 作为一个大二学生平时课太多,希望通过这种方式提高复习效率... import re                               ...

Python3爬虫学习笔记2.2——爬图片-妹子图

有失远迎,今天尝试爬取妹子图妹子图。 让老司机飙车

Python爬虫学习笔记(1)-正则表达式

Python爬虫学习笔记(1)-正则表达式标签(空格分隔): python 爬虫 正则表达式

python开发简单爬虫——笔记(更新中)

爬虫:自动访问互联网并提取数据的程序 爬虫调度端:启动爬虫、停止爬虫、监视爬虫的运行情况 1.Url管理器:管理将要爬取的url和已经爬取的url。将待爬取的url传送给网页下载器。(防止重复...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python爬虫笔记一
举报原因:
原因补充:

(最多只允许输入30个字)