python
文章平均质量分 50
淇怪君
love life and technology
展开
-
第五章 网页下载器和urllib2模块
5.1 网页下载器简介网页下载器:将互联网上的URL对应的网页下载到本地的工具。Python的网页下载器urllib2 : Python官方基础模块requests : 第三方包更强大5.2 urllib2下载网页的几种方法方法一:方法二:方法三:有些网页需要登录才能访问,则需要添加cookie的处理,使用HTTPCookieProcessor原创 2017-02-01 19:39:01 · 569 阅读 · 0 评论 -
第四章 URL管理器和实现方法
4.1 URL管理器URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取和循环抓取,如果两个URL相互指向,爬虫就会陷入死循化。URL管理器支持的功能如下:4.2 URL管理器的实现方法内存,缓存数据库:选取set,因为set可以去除重复元素。由于缓存数据库的高性能,大型互联网公司将URL存储在缓存数据库中。原创 2017-02-01 19:38:08 · 2344 阅读 · 0 评论 -
第三章 简单的爬虫架构
3.1 简单的爬虫架构爬虫调度端:用于启动爬虫,监视爬虫或者记录爬虫的运行情况。URL 管理器:管理已经爬取过的URL 和将要爬取的URL网页下载器:从URL 管理器中取出一个将要爬取的URL,传递给网页下载器。网页下载器会将URL指向的网页下载下来,存储成一个字符串,这个字符串传递给网页解析器进行解析,一方面会解析出有价值的数据,另一方面,每个网页都含有一些指向其他网页的URL,原创 2017-02-01 19:37:28 · 452 阅读 · 0 评论 -
慕课网 Python 开发简答爬虫课程笔记
在慕课网上跟了一门课《python开发简单爬虫》,收益颇多,在这里记录下部分课程笔记,便于以后的回顾。 非常感谢讲师乒乓球鸡蛋的分享,感谢! 课程链接:http://www.imooc.com/video/10677第三章:简单的爬虫架构3.1 简单的爬虫架构3.2 简单的爬虫架构的动态运行流程第四章:URL管理器和实现方法4.1 URL管理器4.2 URL管理器的实现方法原创 2017-02-01 19:36:43 · 1461 阅读 · 0 评论 -
python map 常见用法
list 合并12345678>>> list1 = [11,22,33]>>> map(None,list1)[11, 22, 33]>>> list1 = [11,22,33]>>> li原创 2017-02-01 19:32:41 · 1028 阅读 · 0 评论 -
第六章 网页解析器和BeautifulSoup第三方插件
6.1 网页解析器简介网页解析器:从网页中提取有价值数据的工具(对于搜素引擎来说,它可以提取出网页中所有的URL,但是对于定向爬虫来说,除了提取出待爬取网页中所有的URL之外,同时也会提取出有价值的数据)。网页解析器会以下载好的Html 网页字符串作为输入,然后提取出游价值的数据和新的待爬取的URL列表Python 有几种网页解析器?1.正则表达式:会将整个网页文档原创 2017-02-01 19:39:45 · 1942 阅读 · 0 评论 -
python tkinter写图形界面
用python tkinter模块做了一个小demo,页面上设置4个按钮,每个按钮点击会有流水的滴答声,每个按钮调用相应的方法,在此点击按钮后调用的方法仅为显示一个消息弹窗,显示图片的按钮打开文件对话框,可选择文件。实现的最终效果如下图运行环境:Windows +python2.7下面以每个模块做具体说明一. 选择图片主要为了打开文件对话框可多选,可单选, 多选原创 2017-09-27 20:28:01 · 4489 阅读 · 1 评论