![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python 爬虫
不太现实
这个作者很懒,什么都没留下…
展开
-
Python 爬虫04 request.data 的使用
request.data 的使用访问网络的两种方法get:利用参数给服务器传递信息参数为 dict,然后使用 parse 编码案例 v1# GET 方式请求from urllib import request, parse# 使用 parse 模块对 URL 进行参数编码urls = "http://www.baidu.com/s?"wd = inpu...原创 2018-06-24 11:15:02 · 7410 阅读 · 0 评论 -
Python 爬虫01
爬虫简介爬虫定义: 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐着),是一种按照一定规则,自动抓取万维网信息的程序或脚本。另外一些不常用的名字还有网络蚂蚁,自动索引,模拟程序或蠕虫两大特征能按作者要求下载数据或内容能自动在网络上流窜三大步骤下载信息 (下载网页)提取正确的信息根据一定的规则自动跳转到另外的网页上执行...原创 2018-06-17 21:52:27 · 138 阅读 · 0 评论 -
Python 爬虫02 urllib模块
urllib包含模块urllib.request: 打开和读取URLurllib.error: 包含 urllib.request 产生的错误,使用 try 捕捉urllib.parse: 包含解析 URL 的方法urllib.robotparse: 解析 robots.txt 文件案例 v1from urllib import request# 使用 urllib.req...原创 2018-06-17 22:04:13 · 151 阅读 · 0 评论 -
Python 爬虫03 urlopen 返回对象
urlopen 返回对象geturl: 返回请求对象的 URLinfo: 请求反馈对象的 meta 信息getcode: 返回的 HTTP code案例 from urllib import requesturls = "https://blog.csdn.net/xidianliutingting/article/details/53580569"rsp = reques...原创 2018-06-18 15:20:30 · 1493 阅读 · 0 评论 -
Python 爬虫05 request.error 模块
request.error 模块URLError 产生的原因: 没网服务器连接失败不知道指定的服务器是 OSError 的子类HTTPError,是 URLError 的一个子类案例 v8from urllib import request, errordef main(): url = "https://blog.csdn.net/xidianliuting...原创 2018-06-26 15:10:56 · 369 阅读 · 0 评论 -
Python 爬虫 06 UserAgent
UserAgentUserAgent: 用户代理, 简称 UA, 属于 headers 的一部分,服务器通过 UA 来判断访问者身份常见的 UA 值,使用的时候可以直接 copy,也可以用浏览器访问的时候抓包AndroidMozilla/5.0 (Linux;Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML,...原创 2018-06-28 15:43:05 · 226 阅读 · 0 评论