爬虫
我啊困的唉
新手入门
展开
-
强智教务系统——获取课表
两个接口:获取个人信息以及登录成功后header中的token:http://jwxt.xxx.edu.cn/app.do?method=authUser&xh={$学号}&pwd={$密码}获取课表:http://jwxt.xxx.edu.cn/app.do?method=getKbcxAzc&xh={$学号}&xnxqid={$学年学期ID}&zc={$周次}代码:import jsonimport requestsdef jwx原创 2022-03-20 20:46:19 · 1904 阅读 · 0 评论 -
Selenium爬虫案例——大学排名
要爬的网站:代码:import timeimport pandas as pdfrom selenium import webdriverdef save_csv(arr, csv_filename=None): """Save the data in csv format""" if csv_filename == None: csv_filename="paiming.csv" arr_df = pd.DataFrame({'name': a.原创 2021-09-18 15:32:25 · 279 阅读 · 0 评论 -
Selenium入门——动态多页网站并保存为csv
以爬csdn为例:代码:import timefrom selenium import webdriverimport pandas as pd#保存为csvdef save_csv(arr, csv_filename=None): """Save the data in csv format""" if csv_filename == None: csv_filename="csv.csv" arr_df = pd.DataFrame(arr)原创 2021-09-16 22:44:30 · 418 阅读 · 0 评论 -
selenium入门——爬动态网站
一、安装webdriver:下载:http://chromedriver.storage.googleapis.com/index.html将下载的chromedriver.exe驱动直接复制到python环境的scripts目录中尝试用selenium打开csdn:from selenium import webdriver#1. 获取浏览器对象# webdriver.Chrome(executable_path='executable_path = 'D:\pyth..原创 2021-09-15 20:45:21 · 6270 阅读 · 0 评论 -
Scrapy爬图片入门——静态网站翻页爬虫
接上文爬图片下载:Scrapy爬图片入门——静态网站_ahc176的博客-CSDN博客翻页:通过观察发现url变化是非常有规律的。修改image.py:代码:import scrapyfrom ..items import DemoItemclass ImageSpider(scrapy.Spider): name = 'image' #allowed_domains = ['https://www.58pic.com/c/246013...原创 2021-09-13 21:10:10 · 3392 阅读 · 0 评论 -
Scrapy爬图片入门——静态网站
一、要爬的网站:二、建个项目:scrapy startproject demoscrapy genspider image三、原创 2021-09-13 17:35:23 · 755 阅读 · 1 评论