![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
搬码工琪老师
一个热衷于python编程的物理教师。
展开
-
分析2667所高校,历年,各专业录取数据分数,绘图显示
【代码】爬虫分析各高校历年专业录取分数数据。原创 2023-02-09 18:18:16 · 395 阅读 · 0 评论 -
Python+selenium批量把网页文档保存为PDF
网上有很多网页版的,免费的Python教程电子书,特别想保存下来,写爬虫的话,文字可以取出来,但是漂亮的版面就丢了啊,要是想保留排版样式,那代码量可就太大了,再说我也不会写啊。想了一下,发现可以直接利用Chrome浏览器的自带功能,批量把网页打印成PDF,岂不是很方便,这样只需要利用selenium就可以啦。网上找了找,果然有大佬写出了教程。参考教程地址:https://www.cnblogs.com/new-june/p/14509601.html爬取网页结构如图,代码如下import reque原创 2021-04-09 19:18:37 · 1842 阅读 · 0 评论 -
selenium加requests(携带cookies)自动化安全教育平台管理
先看效果。代码我已经详细做了注释。代码放在最后。上面是selenium获取的cookies.下面是自动查询未完成的学生名单。下面是显示,post方法查看请求头和cookies,cookies我是手动复制后放到代码里面,尤其第二页要用post的方式请求#此代码需要班主任的安全教育平台密码账户登录才可以运行#没有账户的朋友。可以学习一下思路from selenium import webdriverimport timefrom selenium.webdriver.chrome.servi原创 2021-04-03 12:34:50 · 420 阅读 · 1 评论 -
我的第一个Scrapy爬虫,入门级原理详解,附详细源码
平时写了很多小爬虫,最近找到一个小网页,页面特别简单,文章地址如下:(闲来无事,写个小爬虫,爬取1800篇高中作文)可以先了解一下爬取原理https://blog.csdn.net/hq606/article/details/115215425,可以实现几十页的批量爬取。具体文章我已经写到博客里面了,里面有详细的思路和代码。写完以后,我突发奇想,既然这个爬虫这么简单好实现,这么多页面,为啥不用scrapy试试呢?以前想学scrapy但是实在不懂人家的方法,但是凭着直觉,我感觉我的爬虫肯定可以比较简单的放原创 2021-03-29 18:47:37 · 185 阅读 · 2 评论 -
写个小爬虫,爬取1800篇高考优秀作文
主要目的练习爬虫BeautifulSoup requests 基本用法。同时一些小网页的文字总是注册后才让复制,好麻烦,所以干脆爬取试试。import requestsfrom bs4 import BeautifulSoup#url = 'http://www.ruiwen.com/pingyu/1293492.html' # 需要请求的网页的链接#url ='http://www.zuowen.com/yanjianggao/gqx/index_'+'5'+'.shtml' # 需要请求原创 2021-03-25 18:29:04 · 423 阅读 · 2 评论 -
班主任爬取学生评语,批量自动写入表格,应对大量重复填表任务
一个小网页,不让复制,所以写几句代码,爬取网页的文字,一般文字放在在P标签的那种网页,其实都可以用的把输出的文字复制粘贴保存到文件,命名为 评语.txtimport requestsfrom bs4 import BeautifulSoup# 第二步,请求网页内容url = 'http://www.ruiwen.com/pingyu/1293492.html' # 需要请求的网页的链接html = requests.get(url) # get方式请求数据# print(html.st原创 2021-03-23 21:53:18 · 400 阅读 · 0 评论 -
老黄历数据难找?自写代码爬取
网上看到很多日历,万年历数据基本开源。但是老黄历可是难找。很多要花钱才能下载,或者有免费接口,还得注册。干脆自己爬取数据,将来好用得着。直接上代码。import requestsimport jsonimport timeimport pandas as pdimport refrom bs4 import BeautifulSoupfrom collections import...原创 2020-04-06 01:26:35 · 1129 阅读 · 0 评论 -
20行代码,爬取各地历史天气数据
最近有做工程的朋友,让写一个爬虫获取某城市的历史天气数据。要求不高,主要是希望能代替人工搜索数据,代码总是比较方便。而我作为一个初学者正在练习爬虫的学习。所以代码并不是很漂亮,但是思路还是比较清晰规范的。顺便练习了正则对数据的提取,字符串的切片,pandas的dataframe基本使用。先看爬取的网页http://tianqi.2345.com/wea_history/57516.htm这个...原创 2020-04-02 19:09:57 · 7600 阅读 · 24 评论