![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
Jchenn
おとこは死ぬまで少年
展开
-
python爬虫实战,爬取大学信息并按省分开
爬取网页url:https://gkcx.eol.cn/school/search?schoolflag=&fromcoop=bdkp&is_recruitment=11.分析网页:2.获得数据:import requestsimport sqlite3import jsonurl = 'https://api.eol.cn/gkcx/api/'provinces = []head = { 'User-Agent': 'Mozilla/5.0 (W原创 2021-06-06 22:24:20 · 838 阅读 · 0 评论 -
python多线程爬取B站番剧封面,一分钟1000张
首先:分析网页,由图可知我们我们想要的图片是动态加载的,request请求不到。这时我们可以用selenium模块解决,但是该模块爬取速度太慢了,我们这里采用另一种方法。另一种方法则是找出加载出这些数据的文件,有时这些动态的数据会被直接放在js中,有时会向服务器发送请求来得到数据,有一种常用的请求方式就是Ajax。我们尝试寻找该请求中的数据这时我们发现在以result?开头的这个请求中发现我们要的数据,其中的cover下面的网址或许就是我们要的封面,打开一个看看果然是我们要的封面大图。原创 2021-05-27 10:07:23 · 1035 阅读 · 0 评论 -
python爬虫入门
动态网页的爬取有些网页的内容是动态加载的,这时候使用request去获得html文档会发现没有自己想要的内容。介绍selenium:一个可以模仿你使用浏览器的库,可以模仿一些人为的操作。比如输入账号,密码。滑动滚轮等。这里使用chrome做例子(也可以用其他网页)。首先:你需要下载对应的浏览器和驱动器,驱动器下载地址:http://npm.taobao.org/mirrors/chromedriver/其次:你需要将下载的 chromedriver.exe 放到你的python同目录下,原创 2021-05-21 00:47:04 · 98 阅读 · 0 评论 -
python爬虫入门
python爬虫爬取数据步骤:1,获得数据。2,整理数据,检索出自己需要的数据。3,保存到本地静态网页的爬取:1,获得数据import urllib.requesturl = "https://www.baidu.com/" # 要爬取网页的网址 head = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap原创 2021-05-20 22:29:12 · 112 阅读 · 0 评论