![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 65
爱打羽毛球的小怪兽
不断学习,不断努力
展开
-
爬虫学习5——requests进阶(cookie登录、防盗链、
cookies登录登录之后会得到服务器返回的cookie,使用cookie请求我们需求的url页面session用于保持登录信息,在这个过程中cookie信息不会丢失session=requests.session()方法一:在提出申请时指定cookieimport requestsresp=requests.get('https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919',headers={'Cooki原创 2022-03-09 08:00:00 · 304 阅读 · 0 评论 -
爬虫学习4——Xpath爬取网页信息
xpath是在XML文档中搜索内容的一门语言,我们常见的html是xml的一个子集目录安装lxml模块获取网页数据text()拿文本 。xpath使用[1]选择同种标签的第一个。/a[@href='']根据属性href的值选择特定标签//表示后代(子标签,孙子标签,重孙子标签)。*表示任意的节点,通配符。使用@拿到属性值./表示当前节点安装lxml模块pip install lxml获取网页数据text()拿文本 。xpath使用[1]选择同种标签的第一个。/a原创 2022-02-23 17:07:24 · 3246 阅读 · 0 评论 -
爬虫学习3--使用requests与BeautifulSoup爬取网页图片
关于前面的知识点可以通过下面链接对比查看爬虫学习1--使用requests库与re库对网页进行爬取示例讲解_我就是一个小怪兽的博客-CSDN博客图片来源于网络随意找到的一个图库,import requestsfrom bs4 import BeautifulSoupurl='https://www.woyaogexing.com/shouji/'r=requests.get(url,verify=False)r.encoding='utf-8'tt=r.text#获取需要的源代码.原创 2022-02-19 10:31:42 · 992 阅读 · 1 评论 -
爬虫学习2--使用requests、bs4以及csv爬取保存网页信息
文章所有知识基本来自个人的学习整理目录准备工作代码结果展示准备工作准备好我们需要的库以及我们要爬取的网页url等基本信息pip install requestspip install bs4代码本次演示我们选择了山东省菜价,来源于网络读取多个页面数据时,可能会出现下面AttributeError: 'NoneType' object has no attribute 'find_all'的错误,我查阅了别人所说的解决办法,加了请求头headers之后还会出现.原创 2022-02-18 12:47:39 · 1136 阅读 · 0 评论 -
爬虫学习1--使用requests库与re库对网页进行爬取示例讲解
简介首先对requests库和re库要有一个清晰的功能定位。requests库是用来获取网页源代码的,使用re库的正则化匹配从获取的网页源代码中匹配得到我们所需要的信息。requests发送请求的方式又get和post两种,两者最直观就是get获取时,数据可以出现在url中,而post获取时,需要在post方法中另外指定data参数来指定数据import requestsurl='https://correctxt.baidu.com/correctxt?callback=jQuery原创 2022-02-17 14:37:49 · 1980 阅读 · 0 评论