Python学习笔记之简单爬虫

原创 2017年07月15日 07:56:23

所谓的爬虫就是通过代码的方式,抓取网站上的你想要的任何信息,
比如你在网上看见很多有意思的图片,如果不会爬虫的话,我是不是的一张张另存下来,如果会了爬虫,就能悄无声息 的吧图片下载下来,慢慢欣赏。

现阶段我们利用urllib模块,去做最简单的爬虫,因为比较简单,所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。

#encoding:utf-8

import re
import urllib

#利用urllib的urlopen()函数打开一个url地址
#并读取所有的html代码,
def gethtml(url):
    content=urllib.urlopen(url)
    html=content.read()
    return html


#根据正则表达式去匹配符合规则的内容
def geturls(html):
    r=r'data-src="(http://.*?)"'
    alllist=re.findall(r,html)
    return alllist

#利用urlretrieve()下载文件
def download(list):
    x=0
    for li in list:
        x=x+1
        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':
    #内涵段子
    url = "http://neihanshequ.com/pic/"
    #获取网页源码
    html = gethtml(url)
    #根据一定规则过滤出想要的内容
    list = geturls(html)
    #下载图片
    download(list)

    print list
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Python开发简单爬虫学习笔记(1)

慕课网《Python开发简单爬虫》学习笔记

Python的学习笔记(五)(简单的爬虫)

1.简单爬虫的时间流程图 2.URL管理器 3.网页下载器 使用python内置的urllib2进行下载,此外还有requests这个更加优秀的下载器 示例代码: # coding:...

Python学习笔记(四) -- 简单的爬虫

简单的了解了下爬虫的教程,然后自己写了个小程序。公司使用jira管理各种问题及流程跟踪,我主要负责域名解析这块的,目前想把jira上所有的域名相关的单号给爬出来由于jira需要登录,因此首先看看登录需...

Python爬虫学习笔记(1):简单的图片爬取

引言:使用python编写简单的爬图片小程序 简单代码如下,要熟悉正则表达式的引用,懂得融汇贯通之后,可以爬网页上的其他内容,如新闻、评论等。 #coding=utf-8 #urllib模块提供了...

使用Python实现简单爬虫(慕课网学习笔记)

介绍一段自动抓取互联网信息的程序称为爬虫,主要组成:爬虫调度器、URL管理器、网页下载器、网页解析器(1)爬虫调度器:程序的入口,主要负责爬虫程序的控制 (2)URL管理器: 1、添加新的URL到...
  • jyxmust
  • jyxmust
  • 2017年05月31日 19:35
  • 1111

”Python开发简单爬虫“慕课网课程学习笔记1

Python开发简单爬虫 BeautifulSoup实例: from bs4 import BeautifulSoup import re html_doc = """ The ...

Python爬虫学习笔记一:简单网页图片抓取

利用python抓取网络图片的步骤是: 1、根据给定的网址获取网页源代码 2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度...

【极客学院】-python学习笔记-4-单线程爬虫 (提交表单抓取信息,实战练习)

极客学院课程地址:http://www.jikexueyuan.com/course/821_3.html?ss=1 向网页提交数据: get,post 交互方式 分析目标网站 表单提交功能 ...

python爬虫之正则表达式学习笔记一

学习爬虫一段时间了,觉得学正则表达式是个好的契机, 作为一个大二学生平时课太多,希望通过这种方式提高复习效率... import re                               ...

《python爬虫》学习笔记:urllib2库的使用

最简单的爬虫代码import urllib2 response=urllib2.urlopen("http://www.baidu.com") print response.read()上面的等价代...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python学习笔记之简单爬虫
举报原因:
原因补充:

(最多只允许输入30个字)