爬虫
tothemoon_2019
考研中...
展开
-
记录一次爬虫实战 python+selenium
利益相关,图片全打码了先看要干些什么,一共有六百道题。抓了半天包,也没有发现需要的数据。而且这玩意儿有反爬,不管在这个页面怎么点,url地址是固定不变的。ctrl+u查看源码,虽然有题目,但是看不了答案。后来发现直接点击提交能看到答案而且答案会保存到错题库,加上这个页面不能直接访问,得先登录,于是就想出了一个骚操作。用selenium自动化测试工具(用这个前得先在下载chromedriver,火狐的叫firefoxdriver),手动登陆后,起初是用模拟点击,后来发现看可以直接转跳网址(原创 2020-05-21 10:08:41 · 588 阅读 · 0 评论 -
python 疫情数据可视化.py 图书馆管理系统 idcheck.py 随机出题样例.py 球队联赛赛程样例.py primes.py
从键盘输入一个字符串,判断其是否是合法的标识符(首字母为字母或下划线。后面的字母可以是数字、字母或下划线)用正则写好后就检验了几个字符串,不知道有没有bug。如有错误,希望大佬提出import rewhile True: test = input("请输入字符串:") #首字母为字母或下划线,后面\w info = re.search('^[a-zA-z_]\w+',...原创 2020-03-19 21:57:02 · 556 阅读 · 3 评论 -
python xpath笔记
xpath讲义1、为什么要学习xpath和parsel parsel是一款高性能的 Python HTML/XML 解析器。将字符串转化为Selector对象,Selector对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据。我们可以利用XPath,来快速的定位特定元素以及获取节点信息2、什么是xpath XPath (XML Path La...原创 2020-03-19 20:20:01 · 286 阅读 · 0 评论 -
pytho爬虫 requests+json 抓取酷六短视频
爬取照片或者视频,究其本质,就是下载下来网页中对应的二进制文件。# 课题:爬取酷6全站视频# requests# jsonimport requests # pip install requestsimport jsonimport redef change_title(title): """处理文件名非法字符的方法""" pattern = re.compi...原创 2020-03-05 18:39:11 · 303 阅读 · 0 评论 -
python爬虫 requests+json 爬取王者荣耀英雄皮肤脚本
先上成果图模块安装:requests: pip install requestsjson:json好像不是第三方库,如果没有pip install json应该也能安装pycharm用户可以忽略上面两行上脚本# 课题:爬取王者荣耀全英雄皮肤图片# requests# json# 爬虫的一般思路# 1、确定爬取的url路径,headers参数# 2、发送请求 -- requ...原创 2020-02-12 23:39:02 · 988 阅读 · 0 评论