Python学习笔记之简单爬虫

原创 2017年07月15日 07:56:23

所谓的爬虫就是通过代码的方式,抓取网站上的你想要的任何信息,
比如你在网上看见很多有意思的图片,如果不会爬虫的话,我是不是的一张张另存下来,如果会了爬虫,就能悄无声息 的吧图片下载下来,慢慢欣赏。

现阶段我们利用urllib模块,去做最简单的爬虫,因为比较简单,所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。

#encoding:utf-8

import re
import urllib

#利用urllib的urlopen()函数打开一个url地址
#并读取所有的html代码,
def gethtml(url):
    content=urllib.urlopen(url)
    html=content.read()
    return html


#根据正则表达式去匹配符合规则的内容
def geturls(html):
    r=r'data-src="(http://.*?)"'
    alllist=re.findall(r,html)
    return alllist

#利用urlretrieve()下载文件
def download(list):
    x=0
    for li in list:
        x=x+1
        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':
    #内涵段子
    url = "http://neihanshequ.com/pic/"
    #获取网页源码
    html = gethtml(url)
    #根据一定规则过滤出想要的内容
    list = geturls(html)
    #下载图片
    download(list)

    print list
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/baidu_31956557/article/details/75142627

Python破解有道翻译爬虫

-
  • 1970年01月01日 08:00

Python开发简单爬虫--学习笔记

本文内容来自于慕课网《Python开发简单爬虫》,感兴趣的同学可以去看视频。http://www.imooc.com/learn/563 一个简单的爬虫主要分为 调度器、URL管理器、网页下载器、网...
  • qwerty_bibabo
  • qwerty_bibabo
  • 2016-09-02 09:47:17
  • 1667

python最简单的爬虫

主要5部分:主函数,url管理器,网页下载器,网页输出器,网页解析器 (用了set,但是下面的代码并没有突出set的优势。后续可改进) 主要入口函数, spider_main: import ur...
  • Roosevelty
  • Roosevelty
  • 2017-02-23 22:24:26
  • 707

python简单爬虫例子(一)

环境与上一篇一样windows,editplus,python-2.7.6(且我前面文章有介绍过配置过程) 另外介绍一个抓包工具fiddler,超级好用的,特别是在以后你需要爬一些很复杂网站时。(不...
  • u010668907
  • u010668907
  • 2015-09-12 21:25:43
  • 4479

Python写一个简单的爬虫样例(不超过50行代码)

###写在题外的话 爬虫,我还是大三的时候,第一次听说,当时我的学姐给我找的一个勤工俭学的项目,要求是在微博上爬出感兴趣的信息,结果很遗憾,第一次邂逅只是擦肩而过。然后,时间来到4年后的研二,在做信息...
  • wsbxzz1
  • wsbxzz1
  • 2017-06-10 10:55:59
  • 15100

Python实现简单爬虫

简单爬虫构架 时序图 Url管理器 管理待抓取url集合和已抓取Url集合 通过两个列表(已抓取url列表,未抓取url的列表)防止重复抓取、防止循环抓取 网页下载器 将互联网上Url对应的网页...
  • zxc123e
  • zxc123e
  • 2016-04-29 17:27:10
  • 3604

python小实例一:简单爬虫

本文所谓的爬虫就是通过本地远程访问url,然后将url的读成源代码形式,然后对源代码进行解析,获取自己需要的数据,相当于简单数据挖掘。本文实现的是将一个网页的图片爬出保存到本地的过程,例子很简单,用的...
  • xqn2017
  • xqn2017
  • 2017-03-27 11:52:26
  • 6494

一个简单的python爬虫程序

爬虫程序
  • AddisionYoung
  • AddisionYoung
  • 2016-01-30 09:52:10
  • 579

python爬虫系列(1)——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。
  • dnxbjyj
  • dnxbjyj
  • 2017-04-19 08:05:51
  • 1469

超级简单快捷爬虫代码python

  • 2016年06月04日 22:33
  • 26KB
  • 下载
收藏助手
不良信息举报
您举报文章:Python学习笔记之简单爬虫
举报原因:
原因补充:

(最多只允许输入30个字)