Python爬虫
文章平均质量分 83
__SeanLiu
这个作者很懒,什么都没留下…
展开
-
Python爬虫入门二之爬虫基础了解
1.什么是爬虫2.浏览网页的过程3.URL的含义4. 环境的配置转载 2017-03-03 17:58:52 · 295 阅读 · 0 评论 -
Python爬虫入门三之Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来。#!/usr/bin/env python转载 2017-03-03 18:28:55 · 513 阅读 · 0 评论 -
Python爬虫入门四之Urllib库的高级用法
1.设置Headers2. Proxy(代理)的设置3.Timeout 设置4.使用 HTTP 的 PUT 和 DELETE 方法5.使用DebugLog转载 2017-03-03 21:20:48 · 2654 阅读 · 12 评论 -
Python爬虫入门五之URLError异常处理
1.URLError2.HTTPError转载 2017-03-03 21:59:18 · 1198 阅读 · 0 评论 -
Python爬虫入门六之Cookie的使用
1.Cookie2.Opener3.Cookielib1)获取Cookie保存到变量2)保存Cookie到文件3)从文件中获取Cookie并访问4)利用cookie模拟网站登录转载 2017-03-04 08:49:40 · 380 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了正则表达式的大致匹配过程是: 1.依转载 2017-03-04 09:32:07 · 633 阅读 · 0 评论 -
Python爬虫入门一之综述
1.Python基础学习1) 廖雪峰Python教程2) Python基础教程2.Python urllib库的用法3.Python 正则表达式4.爬虫框架Scrapy转载 2017-03-03 17:56:20 · 558 阅读 · 0 评论 -
Python爬虫利器一之Requests库的用法
前言安装引入基本请求GET请求基本GET请求GET JSONGET原始套接字内容添加headersPOST请求基本POST请求POST JSON上传文件上传流Cookies超时配置会话对象SSL证书验证代理转载 2017-03-06 01:09:47 · 7052 阅读 · 0 评论