python学习总结(二):通过Selenium爬取公司办公网

本文记录了作者使用Selenium爬取公司近5年文件标题的过程,包括如何处理登录认证、无下一页链接的跳转、利用xpath定位元素以及收集到的数据初步分析。针对登录问题,通过在URL中直接加入账号密码解决,数据收集完毕后,计划制定分析框架,借助其他工具深入分析文件内容。
摘要由CSDN通过智能技术生成

    由于“八项规定”要求“要精简文件简报,切实改进文风,没有实质内容、可发可不发的文件、简报一律不发。”但根据个人感觉本人所在公司的文件却有增无减。为了进一步想弄清楚关系所以对公司近5年的文件标题进行了搜集分析。现将要点记录如下:

1.公司办公网的登录和认证。出师不利,由于是公司内部办公网,不输入账号和密码是无法进入的。本人无法通过selenium定位弹出账号窗口元素,最后通过搜集找到了在网址中直接加入账号和密码的办法进行解决。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值