Python爬虫
文章平均质量分 76
记录爬虫学习过程
zadarmo_
这个作者很懒,什么都没留下…
展开
-
【Python爬虫】简单实战——手把手教你爬取分页数据并存储到本地excel(页面少、单线程)
一、前言最近在看研究生导师的信息。但是导师信息是分页存储的(大概有10页吧),点来点去很麻烦,所以我就想把所有信息爬取下来????,存到本地excel中。这样可以前期做一个筛选,然后详细看每个导师的主页信息???????? 。二、准备工作这次我用的是Python????,相关的库有:requests:发送http请求bs4、BeautifulSoup:提供很多对象和方法,帮助我们解析html页面的标签re:正则式库,和BeautifulSoup库配合使用,比如:找到某个标签,其class属性原创 2021-11-16 13:02:36 · 5467 阅读 · 1 评论 -
实战一:爬取拉勾网职位信息
针对于https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=,进行爬虫操作。1. 使用urlopen函数from urllib import requesturl = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='resp = request.urlopen(ur原创 2020-07-04 21:15:54 · 3817 阅读 · 0 评论 -
urllib库
声明:本文知识点解释部分大部分来自21天搞定Python分布式爬虫教学视频urllib库urllib库是Python中一个基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。1. urlopen函数在Python3的urllib库中,所有和网络请求相关的方法,都被集成到了urllib.request模块下面了。基本用法:from urllib import request # 从urllib导入request库resp = request.url.原创 2020-07-03 12:16:19 · 321 阅读 · 0 评论 -
爬虫前缀知识
声明:本文大部分内容来自21天搞定Python分布爬虫教学视频url详解URL是Uniform Resource Locator的简写,称为统一资源定位符。一个URL由以下几部分组成:scheme://host:port/path/?query-string=xxx#anchorsheme:访问的协议,一般为http、https、ftphost:主机名,域名,比如www.baidu.comport:端口号。当访问一个网站时,浏览器默认使用80端口path:查找路径。一个页面下的哪个目.原创 2020-07-02 14:04:01 · 299 阅读 · 0 评论