![](https://img-blog.csdnimg.cn/direct/e348aca2e8d94b709b2a090f81df3ec6.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
笔记分享
分享python爬虫常用库的常用语法,以便学习工作随时查阅
MagnusChuen
自学爬虫の小白一枚
展开
-
抓取陷阱的避开
解决方法,在填写时对字段属性进行排查,也可以使用selenium的is_displayed()方法来检查某元素是否可见。即对某些字段值的属性设为用户不可见,仅浏览器可以识别:type = 'hidden'如果你在提交表单的时候提交了隐藏字段值,将会被视作机器人。其他的参数可以视情况进行删减与更改。二. 关于cookie。原创 2024-05-04 08:17:30 · 689 阅读 · 0 评论 -
os库使用笔记
如获取文件/文件夹名,文件/文件夹绝对路径,是否为文件夹,是否为文件,以及属性。根据属性,还可以提取文件的大小(单位为kb,文件夹大小为0kb)、最近访问时间、最近修改时间、window系统下的创建时间、linux系统下的创建时间等。第一个为文件夹绝对路径,第二个为子文件夹的列表,第三个为根目录下所有文件的列表。2.os.chdir(path) 更改当前路径,更改后,默认路径为更改后的路径。创建路径(文件夹),若该路径已存在,则报错。循环遍历top路径下的所有文件,该路径下层的文件及文件夹。原创 2024-05-06 14:33:18 · 385 阅读 · 0 评论 -
urllib库使用笔记
其中params是参数,query是查询条件,fragment是锚点。可使用 . 提取构成各部分。原创 2024-05-03 11:21:32 · 11 阅读 · 0 评论 -
selenium使用笔记
但隐式等待是全局性的,即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。单击右键:ActionChains(driver).context_click(button).perform()双击:ActionChains(driver).double_click(button).perform()file_path = Path(Path.cwd(), '上传下载.html')原创 2024-05-02 18:09:12 · 841 阅读 · 1 评论 -
表单提交、cookie获取--穿越登录窗口进入页面
cookie是跟踪用户是否登录的状态信息,在登陆一次后即可获得cookie,下次即可携带cookie直接访问网页,绕开登录。由Session构造的session对象非常给力,会持续跟踪对话中的cookie, header甚至是http协议的信息。url不是指表单所在页面的url,而是跳转页面的(或者说是表单处理的页面),可以通过查看表单的action属性的值得到。name指输入字段名称,在表单源码中可以看到,一定要注意不能错。1.用requests跟踪cookie。key即你要提交的信息。原创 2024-05-01 13:19:12 · 25 阅读 · 0 评论 -
xpath使用笔记
from lxml import etreehtml_doc = requests.get(url).text()page = etree.HTML(html_doc)一些常用运算符原创 2024-04-30 14:36:36 · 191 阅读 · 0 评论 -
Beautifulsoup使用笔记分享
利用方法对其进行解析和提取。原创 2024-04-29 10:54:17 · 261 阅读 · 0 评论 -
requests库基础笔记分享
一.发起请求最常用的请求方法具体参数二.接受响应。原创 2024-04-28 10:58:50 · 188 阅读 · 0 评论