Python学习笔记之简单爬虫

原创 2017年07月15日 07:56:23

所谓的爬虫就是通过代码的方式,抓取网站上的你想要的任何信息,
比如你在网上看见很多有意思的图片,如果不会爬虫的话,我是不是的一张张另存下来,如果会了爬虫,就能悄无声息 的吧图片下载下来,慢慢欣赏。

现阶段我们利用urllib模块,去做最简单的爬虫,因为比较简单,所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。

#encoding:utf-8

import re
import urllib

#利用urllib的urlopen()函数打开一个url地址
#并读取所有的html代码,
def gethtml(url):
    content=urllib.urlopen(url)
    html=content.read()
    return html


#根据正则表达式去匹配符合规则的内容
def geturls(html):
    r=r'data-src="(http://.*?)"'
    alllist=re.findall(r,html)
    return alllist

#利用urlretrieve()下载文件
def download(list):
    x=0
    for li in list:
        x=x+1
        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':
    #内涵段子
    url = "http://neihanshequ.com/pic/"
    #获取网页源码
    html = gethtml(url)
    #根据一定规则过滤出想要的内容
    list = geturls(html)
    #下载图片
    download(list)

    print list
版权声明:本文为博主原创文章,未经博主允许不得转载。

Python开发简单爬虫--学习笔记

本文内容来自于慕课网《Python开发简单爬虫》,感兴趣的同学可以去看视频。http://www.imooc.com/learn/563 一个简单的爬虫主要分为 调度器、URL管理器、网页下载器、网...
  • qwerty_bibabo
  • qwerty_bibabo
  • 2016年09月02日 09:47
  • 1456

python简单爬虫例子(一)

环境与上一篇一样windows,editplus,python-2.7.6(且我前面文章有介绍过配置过程) 另外介绍一个抓包工具fiddler,超级好用的,特别是在以后你需要爬一些很复杂网站时。(不...
  • u010668907
  • u010668907
  • 2015年09月12日 21:25
  • 4071

Python实现简单爬虫

简单爬虫构架 时序图 Url管理器 管理待抓取url集合和已抓取Url集合 通过两个列表(已抓取url列表,未抓取url的列表)防止重复抓取、防止循环抓取 网页下载器 将互联网上Url对应的网页...
  • zxc123e
  • zxc123e
  • 2016年04月29日 17:27
  • 3207

用python写一个简单的爬虫功能

iOS开发如果之前没接触过除了c和c++(c++太难了,不花个十来年基本不可能精通)的语言,第二门语言最好的选择就是python.原因就是1.语法简单2.库太多,随便想要什么功能的库都找得到,简直编程...
  • jinglijun
  • jinglijun
  • 2016年02月20日 14:50
  • 23129

python写简单爬虫的五种方法

获取html的方法【一】:使用urllib # -*- coding: UTF-8 -*- import urllib   ' 获取web页面内容并返回' def getWebPag...
  • feibuhui123
  • feibuhui123
  • 2012年11月21日 15:33
  • 855

python实现一个简单的爬虫

今天第一次写爬虫,感觉非常有趣!,中途也遇到了许多问题,所以写篇博客~ 目标:爬取豆瓣编程类书籍中9分以上的 刚接触爬虫,说下我的认识(不一定准确^_^) 我们知道网页的呈现也是用编程语言写出来的...
  • wwh578867817
  • wwh578867817
  • 2015年05月03日 23:48
  • 958

Python爬虫学习系列教程-----------爬虫系列 你值的收藏

静觅 » Python爬虫学习系列教程:http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习...
  • wickedvalley
  • wickedvalley
  • 2016年07月25日 23:04
  • 1909

Python写一个简单的爬虫样例(不超过50行代码)

###写在题外的话 爬虫,我还是大三的时候,第一次听说,当时我的学姐给我找的一个勤工俭学的项目,要求是在微博上爬出感兴趣的信息,结果很遗憾,第一次邂逅只是擦肩而过。然后,时间来到4年后的研二,在做信息...
  • wsbxzz1
  • wsbxzz1
  • 2017年06月10日 10:55
  • 5106

python爬虫系列(1)——一个简单的爬虫实例

本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。
  • dnxbjyj
  • dnxbjyj
  • 2017年04月19日 08:05
  • 520

python简单爬虫代码,python入门

python简单爬虫代码 python入门
  • tangdou5682
  • tangdou5682
  • 2016年09月20日 15:55
  • 5354
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python学习笔记之简单爬虫
举报原因:
原因补充:

(最多只允许输入30个字)