![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
机智的frank
唯爱琳
展开
-
爬虫---解析库
1.正则表达式解析 利用正则表达式进行匹配 # -*- coding:utf-8 -*-import urllibimport urllib2import reclass Spider: def __init__(self, kw): self.page = 1 self.kw = kw self.switc...原创 2018-05-19 18:18:46 · 492 阅读 · 0 评论 -
爬虫---基本概念
1.什么是爬虫 爬虫,就是抓取网页数据的程序 2.爬虫怎么抓取网页数据 网页的三大特征: (1)网页都有自己唯一的url(统一资源定位符)来进行定位 (2)网页都使用HTML(超文本标记语言)来描述页面信息 (3)网页都使用http/https(超文本传输协议)协议传输HTML数据爬虫的设计思路: (1)首先确定需要爬取的网页url地址。 (2)通过http/https协议来获...原创 2018-05-14 19:13:43 · 314 阅读 · 0 评论 -
爬虫---一个简单的贴吧爬虫
获取目标贴吧的贴子标题# -*- coding:utf-8 -*-# 这是一个爬取贴吧贴子标题的程序# 导入需要的模块import urllibimport urllib2import re# 定义一个爬虫类class Spider: # 定义初始化方法 def __init__(self, kw): # 从第一页开始 self...原创 2018-05-25 21:23:08 · 1138 阅读 · 0 评论 -
爬虫---Handler处理器和自定义opener
1.自定义opener (1)opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:使用相关的 Handler处理器 来创建特定功能的处理器对象;然后通过 urllib2.build_open...原创 2018-05-25 21:42:09 · 662 阅读 · 0 评论 -
爬虫---获取网页数据的几种方式
1.post方式(有道词典)# -*- coding:utf-8 -*-import urllibimport urllib2url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'headers = {'User-agent':'Mozilla/5.0 (X11; Linu...原创 2018-05-15 22:25:23 · 5755 阅读 · 0 评论