![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
文章平均质量分 54
Python爬虫全套流程
流光2021
这个作者很懒,什么都没留下…
展开
-
Python爬虫之request模块
Python爬虫之request模块定义python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用模拟浏览器发送请求request模块使用流程指定url发送请求获取响应数据持久化存储环境安装pip install requests实战编码需求:1、爬取搜狗首页的页面数据import requestsif __name__=="__main__": # 第一步:指定url url='https://web.sogou.com/?2199原创 2021-04-09 08:33:54 · 292 阅读 · 0 评论 -
Python爬虫验证码识别登录
验证码识别登录获取验证码图片import requestsfrom lxml import etreeurl='https://so.gushiwen.org/user/login.aspx?from='headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko原创 2021-04-13 15:25:24 · 1287 阅读 · 0 评论 -
数据解析(聚焦爬虫:爬取页面中指定的页面内容)
数据解析(聚焦爬虫:爬取页面中指定的页面内容)1.编码流程指定url发起请求获取响应数据数据解析持久化存储2.数据解析分类正则bs4xpath(重点)3.数据解析原理概述解析的局部的文本内容都会在便签之间或者便签对应的属性中进行存储进行指定标签的定位标签或者标签对应的属性中存储的数据进行提取(解析)4.常用正则表达式回顾单字符(.):除换行以外所有字符([]):[aoe],[a-w] 匹配集合中任意一个字符(\d):数字 [0-9](\D):非数字(\w原创 2021-04-09 09:11:32 · 836 阅读 · 0 评论