Python爬虫
Dream_Hill
这个作者很懒,什么都没留下…
展开
-
urllib库数据挖掘【1】--一个简单的爬虫
urllib是python自带的模块,使用时直接导入即可,不需要下载安装。在写爬虫时,需要用到urllib模块下的request模块。下面我们通过一个简单的例子来进行说明。 from urllib import request url = r"http://www.baidu.com/" # 发送请求,获取响应信息 response = request.urlopen(url).re...原创 2019-05-28 19:42:54 · 88 阅读 · 0 评论 -
urllib库数据挖掘【2】--自定义请求
上一篇文章中,我们通过调用urllib下的request模块写了一个简单的爬虫,用来获取百度首页的信息。实际上,一般的服务都会有反爬虫机制,如:判断用户是否是浏览器访问;判断请求来源的地址等。那么我们就可以通过伪装成浏览器或者使用代理IP来进行访问。 我们先来看一下如何伪装成浏览器。服务器一般通过User-Agent来识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器语言、浏览器插件...原创 2019-05-28 20:13:12 · 102 阅读 · 0 评论 -
urllib库数据挖掘【3】--自定义opener
我们之前使用的urlopen是一个特殊的opener,它是模块帮我们构建好的,但是urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。要支持这些功能,需要创建自定义opener对象。 1.通过request.build.opener()方法创建自定义opener对象 from urllib import request # 构建处理器对象(专门处理HTTP...原创 2019-05-28 20:42:32 · 232 阅读 · 0 评论 -
urllib库数据挖掘【4】--使用代理IP
之前我们学习了通过伪装成浏览器去访问网址,这篇文章我们一起学习一下如何使用代理IP进行访问。可以在网上找一些免费的代理IP来使用,如西刺免费代理IP。 首先,定义要访问的url和一个代理IP: # 定义要访问的url url = "http://www.baidu.com" # 定义代理IP,格式为:{"protocol_name": "ip:port"} proxy = {"http":...原创 2019-05-29 10:54:13 · 331 阅读 · 0 评论 -
urllib库数据挖掘【5】--处理get请求
GET方法用来请求访问已被URI(统一资源定位符)识别的资源。指定的资源经服务器端解析后返回响应内容。get请求一般将要访问的内容包含在URL中。在百度首页搜索内容时,浏览器发送的就是一个get请求: 下面我们来编写一个获取百度首页搜索结果的程序。通过观察,我们发现搜索框中查找的内容在url中出现的位置为https://www.baidu.com/s?wd=python(这里的python就...原创 2019-05-29 23:35:14 · 135 阅读 · 0 评论