python爬虫
文章平均质量分 79
polarislove1113
这个作者很懒,什么都没留下…
展开
-
精通python网络爬虫学习笔记(1)
精通python网络爬虫学习笔记(1)第一章爬虫的组成: 控制节点,爬虫节点,资源库网络爬虫中可以有多个控制节点,多个爬虫节点,控制节点之间可以互相通信,控制节点和其下的爬虫节点之间也可以互相通信,同一控制节点其下的爬虫节点之间也可以互相通信。 控制节点主要负责: 根据url地址分配线程,调用爬虫爬虫节点负责: 具体的爬取工作爬行后,爬行结果存储到资源库。第三章开始进入Python学习原创 2017-12-08 20:58:19 · 428 阅读 · 0 评论 -
Python网络爬虫与信息提取(二) BeautifulSoup库
BeautifulSoup 库入门BeautifulSoup库主要作用是能对html xml格式进行解析,并且提供解析import requestsfrom bs4 import BeautifulSoup as bsr = requests.get ("https://www.python123.io/ws/demo.html")r.textdemo =r.textsoup = bs(d原创 2017-12-09 22:35:37 · 712 阅读 · 0 评论 -
Python网络爬虫与信息提取(三) 正则表达式
正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。 正则表达式由字符和操作符构成 正则表达式常用操作符 操作符 说明 实例 . 表示任何单个字符 [] 字符集,对单个字符给出取值范围 [a原创 2017-12-10 01:04:56 · 4394 阅读 · 0 评论 -
Python网络爬虫与信息提取(一) requests库
Request库入门import requests #引入requests库 r = requests.get("http://www.baidu.com") #构造一个向服务器请求资源的Request对象,r是返回一个包含服务器资源的Response对象r.status_coder.text 属性 说明 r.statuscode 返回http请求状态码,200表示成功,404表原创 2017-12-09 01:42:36 · 697 阅读 · 0 评论