python 网络爬虫
文章平均质量分 58
是强筱华哇!
野生程序猿
展开
-
用python爬取考研词汇及其近反义词与例句
前期准备运行环境:jupyter notebook 或者 pycharmpython版本:python3.x浏览器:chrome需要用到的库:requestsbs4osenchantjsontime可能需要安装的库pip install requests -i https://pypi.tsinghua.edu.cn/simplepip install Beautifulsoup4 -i https://pypi.tsinghua.edu.cn/simplepip insta原创 2021-03-26 10:13:30 · 2316 阅读 · 5 评论 -
用python爬取中国保护知识产权网
网址:中国保护知识产权网本次爬取的是国际新闻部分需要爬取的是文章标题,对应的url、日期和内容打开开发者模式(Ctrl+Shift+i),找到Network 下的XHR,按(Ctrl+R)进行刷新。分析Headers可以发现请求方式是POST,表单数据由pageNumber和cid组成我们换第二页看看什么数据会发生变化对比第一页我们可以发现url没有发生变化,发生变化的只有pageNumber,所以可以通过修改pageNumber来实现批量爬取。接下来看看这XHR里有什么内容,点击P原创 2021-03-16 19:20:40 · 4137 阅读 · 0 评论 -
用python Beautiful soup爬取OpenJudge网站,并将数据保存在JSON格式内
import requestsimport osimport jsonfrom bs4 import BeautifulSoupheaders = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-...原创 2020-03-13 17:02:14 · 1556 阅读 · 0 评论