![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
XiaoTobey
这个作者很懒,什么都没留下…
展开
-
Python第一个程序小爬虫
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*- import urllib2原创 2015-04-29 20:11:09 · 824 阅读 · 0 评论 -
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll原创 2015-04-29 20:41:43 · 522 阅读 · 0 评论 -
对urllib2的一些理解
简介: urllib2是python的一个获取url(Uniform ResourceLocators,统一资源定址器)的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证,cookies,代理,等等。这些都是由叫做opener和handler的对象来处理的。 以下是获取url最简转载 2015-05-03 17:47:00 · 484 阅读 · 0 评论 -
关于Python切片
# -*- coding:utf-8 -*-#定义一个字符串 strA = "str123ab" print strA结果:str123ab#定义一个元祖 tupleB = ('str',1,2,3,'a','b') print tupleB结果:('str', 1, 2, 3, 'a', 'b')#定义一个列表 listC = ['str',1,2,3,'a','b'] print listC结果原创 2015-05-18 20:33:07 · 858 阅读 · 0 评论