crawler
文章平均质量分 83
字母的艺术
make it happen !
展开
-
一只爬虫带你看世界【7】
11.正则表达式特殊符号及用法正则表达式特殊符号主要有两部分构成,其一是元字符,其二是由”\”加上字母构成的。元字符:举个栗子:>>>re.search(r'Fish(c|d)','Fishc')>>>re.search(r'Fish(c|d)','Fishd') >>>re.search(r'^Fish','Fishsdfa原创 2017-10-27 21:15:12 · 667 阅读 · 0 评论 -
一只爬虫带你看世界【5】#批量下载图片
9.批量下载妹子图使用模块化的思想进行代码搭建,主函数为 download_mm,其中包含了url_open(url)、 get_page(url)、find_imgs(url)、save_imgs(folder,img_addrs)四个模块,模块一:url_open(url):用于网址访问,多次调用,故抽象出一个模块,该模块返回html,但是不decode编码格式,由于不知返回的文字信息原创 2017-10-25 22:58:54 · 567 阅读 · 0 评论 -
一只爬虫带你看世界【4】
7.模拟浏览器访问,隐藏python自身信息原理:当浏览器访问服务器上的内容时,服务器会抓取访问信息中 header 中的 User-Agent 信息,若User-Agent中显示有python信息等,则视为爬虫程序, 此时服务器会阻止它进行信息爬取。为了隐藏爬虫程序,此时使用模拟浏览器访问的方式来进行信息获取,模拟浏览器方法是添加浏览器的User-Agent,目前有两种方法添加。原创 2017-10-25 19:44:09 · 391 阅读 · 0 评论 -
一只爬虫带你看世界【3】
6.实战two:有道翻译 准备工作,打开有道翻译的官网,输入“陪伴是最长情的告白”,点击翻译,则会出现英文的翻译。 此时在该页面上点击右键,选择查看元素,弹出的菜单栏中选network,再点击页面上的翻译,弹出的信息中选择第一个,在信息右侧会出现header等信息,截图如下: 截图反映了服务器与浏览器之间的数据交换。其中Headers信息中,Genera原创 2017-10-24 19:50:54 · 359 阅读 · 2 评论 -
一只爬虫带你看世界【2】
5.实战one:模拟登陆网站下载 单身喵 图前言部分,提供图片服务(service)的网址:http://www.placekitten.com,该网址是各种猫图,很好玩儿,各种小猫猫图,可萌可萌了~若在http://www.placekitten.com/g/500/600加上“/g/500/600”会根据大小去锁定对应的猫图。需要用到的知识:a: urllib 模块中的r原创 2017-10-23 23:03:10 · 324 阅读 · 0 评论 -
一只爬虫带你看世界【1】
1.python如何访问互联网: 它自带电池。“URL” + “lib” =urllib2.URL的一般格式为: Protocol://hostname[:port]/path/[;partmeters][?query]#fragment有三部分构成:-----第一部分是协议:http,https,ftp,file等~-----第二部分是存放资源的服务器的域名系统或原创 2017-10-23 22:39:16 · 260 阅读 · 0 评论 -
一只爬虫带你看世界【11】
15.爬虫框架Scrapy 应用实战使用scrapy抓取一个网站需要四个步骤:Step one: 创建一个scrapy项目Step two:定义item容器Step three:编写爬虫Step four:存储容器Scrapy Engine 是框架的核心,控制数据流在所有组件的流动。 项目实战:在http://dmoztools.net/Comput原创 2017-10-29 20:44:36 · 394 阅读 · 0 评论 -
一只爬虫带你看世界【9】
13.访问状态码与异常处理前言:python默认会自动帮助处理重定向内容(状态码300-399范围),状态100-299的范围是表示成功,故需要关注的是400-599这个范围内的状态码,这个范围内的信息代表了它们响应出了问题。其中400-499表示问题来源于客户端,500-599表示问题来源于服务器端。访问状态码:小结:状态码1XX表示请原创 2017-10-28 17:52:47 · 198 阅读 · 0 评论 -
一只爬虫带你看世界【8】
12.使用正则表达式爬取贴吧图片(findall用法 - 返回正则表达式中单个子组)说明:采用模块化化编程思想,将打开url封装成一个函数,即open_url(url)。 使用正则表达式匹配图片: p = r' 其中[^"]+\.jpg,匹配非双引号的所有字符,并且重复(1,+)次,后缀名为.jpg形式的图片。使用()将需要信息的子组,即直接返回http://www.b原创 2017-10-27 22:54:04 · 203 阅读 · 0 评论 -
一只爬虫带你看世界【6】
10. 使用正则表达式来匹配 ip 地址准备工作:Python中使用正则表达式时,是调用 re模块,“import re”,使用其search()方法,该方法用于在字符串中搜索正则表达式模式第一次出现的位置。举个栗子>>> import re>>> re.search(r'FishC','I loveFishC.com')通配符使用点号能够匹配除了换行符以外的任何一原创 2017-10-26 20:25:25 · 246 阅读 · 0 评论