![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
爬虫相关知识总结
wlq_1024
这个作者很懒,什么都没留下…
展开
-
网络爬虫之多线程爬虫
文章目录多线程工作原理多线程示意图Queue(队列对象)Queue队列的常用方法Queue用法示例队列锁和线程锁多线程爬虫的实现多线程爬虫代码实现多线程工作原理多线程示意图[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3pMNWgxL-1590650765521)(C:\Users\王利钦\Desktop\爬虫总结\多线程示意图.png)]Queue(队列对象)定义queue是python中的标准库,可以直接from queue import Queue引用;原创 2020-05-28 15:28:17 · 238 阅读 · 0 评论 -
网络爬虫之网页数据解析(JSON与JsonPATH)
文章目录JSON定义对象{}:JSONObject数组[]:JSONArray方法JSON与Python数据类型对戏JsonPath定义JsonPath和XPath的语法对比JsonPath的基本使用实例JSON定义JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。对象{}:JSONObje原创 2020-05-28 14:30:55 · 2006 阅读 · 0 评论 -
网络爬虫之网页数据解析(bs4)
文章目录定义实例数据遍历文档树搜索文档树CSS选择器bs4实例定义和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种实例数据<!DOCTYPE html><html lang="en"><head> <meta charset="UT原创 2020-05-28 12:04:07 · 660 阅读 · 0 评论 -
网络爬虫之网页数据解析(XPath)
文章目录引入什么是XMLXML的节点关系XPath定义XPath表达式最常用的路径表达式常用路径表达式以及表达式的结果谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中选取未知节点选取若干路径,通过在路径表达式中使用“|”运算符,您可以选取若干个路径XPath的运算符lxml库定义lxml数据转换lxml读取文件XPath具体用法XPath案例引入有人说,我正则用的不好,处理HTML文档很累,有没有其他的方法?有!那就是XPath,我们可以先将网络获取的String类型数据转换成 H原创 2020-05-28 10:53:04 · 1167 阅读 · 0 评论 -
网络爬虫之网页数据解析(正则re)
文章目录小实例正则匹配规则match方法:从起始位置开始查找,一次匹配search方法:从任何位置开始查找,一次匹配findall方法:全部匹配,返回列表finditer方法:全部匹配,返回迭代器split方法:分割字符串,返回列表sub方法:替换匹配中文:re.compile(u'[\u4e00-\u9fa5]+')贪婪模式与非贪婪模式正则案例批量爬取图片多线程爬取图片西刺代理正则表达式测试网站小实例s = 'hello world python high salary 123 456 Hello原创 2020-05-27 16:54:29 · 6495 阅读 · 0 评论 -
网络爬虫之爬虫类库
文章目录urlliburllib.request.urlopenurllib.parse.urlencodeurllib.request.urlretrieveurllib.request.ProxyHandlerrequestsrequests.getrequests.postrequests.Sessionrequests的私密代理请求头urllib安装:pip install urllib导入:import urlliburllib.request.urlopen参数:url :需要打开的网原创 2020-05-27 15:47:01 · 292 阅读 · 0 评论