python爬虫学习
写一些自己在学习python爬虫中遇到的问题,一点点进步吧~
马马也
或许是不知梦的缘故,流离之人追逐幻影。
展开
-
信息标记的三种形式(爬虫基础)
一. 前言学习爬虫不仅要学习怎样爬取到一个网页,更要学习如何将爬取到的内容进行解析,没有解析的数据是没有价值的,下面就让我们看一下网页中信息标记的三种形式.二. 三种形式:1.XML(可扩展标记语言):(1)主要通过标签的形式对信息进行标记:例: <name>内容</name> (中间有内容) <name/>...原创 2019-05-02 10:00:33 · 689 阅读 · 0 评论 -
python爬取网页的通用代码框架
代码如下:import requestsdef getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() #如果状态不是200,引发HTTPError异常 r.encoding = r.apparent_encoding ...原创 2019-04-25 22:49:44 · 462 阅读 · 0 评论 -
Python爬虫(通过Requests包实现)
通过requests包实现python爬虫是最简单的一种方式,requests包可以通过pip进行下载,下载完成可以直接导入进行引用.代码如下:import requestsr = requests.get("http://www.baidu.com") if r.status_code == 200 : #如果状态码为200,则表示访问成功 r.encoding =...原创 2019-04-24 23:20:14 · 1105 阅读 · 0 评论 -
网络爬虫的Robots协议
目前对网络爬虫的限制主要有两种方式:1.来源审查:判断User-Agent(在请求头中的一个键值对)进行限制,通过该键值对可以判断发起网络请求的浏览器类型,网站维护人员可以根据这个进行请求限制.2.发布公告:Robots协议下面我们就主要讲一下Robots协议.Robots协议的作用:网站告诉爬虫哪些网页可以爬取,哪些不行.Robots协议的形式:在网站根目录下的robots....原创 2019-04-26 21:09:03 · 1615 阅读 · 0 评论 -
正则表达式
一.正则表达式的元字符:1.匹配单个字符与数字:(1). 匹配出换行符以外的任意字符(2)[0123456789] [ ]是字符集合,表示匹配方括号所包含的任意一个字符,匹配任意数字(3)[a-z] 匹配任意小写字母(4)[A-Z] ...原创 2019-03-09 11:35:38 · 92 阅读 · 0 评论 -
python中对于json数据的相关操作
一.json简介1.概念:一种保存数据的格式2.作用:可以保存本地的json文件,也可以将json串进行传输,通常将json作为轻量级的传输方式3.json文件组成:(1){ } 代表对象(字典)(2)[ ] 代表列表(3) : 代表键值对(4) , 分割两个部分二.json相关处理代码思...原创 2019-03-15 09:21:36 · 284 阅读 · 0 评论 -
Python实现简单的爬虫
#导入python的爬虫包import urllib.request#向指定的url地址发起请求,并返回服务器响应的数据(文件的对象)response = urllib.request.urlopen("http://www.baidu.com")#读取接收的数据data = response.read()print(data)#将读取到的数据写入dd盘file.html文...原创 2019-03-09 20:59:11 · 112 阅读 · 0 评论