爬虫
文章平均质量分 60
钢盔兔
这个作者很懒,什么都没留下…
展开
-
selenium+Xpath爬取电影中出现的问题与源码
这次是为了爬取豆瓣top250的电影信息,页面规则非常简单,url的规律非常好找,只需要改一个参数就行了,而且也没有加密。因为要准备考研好久没更新了,因为要展示数据采集的作业(本来是打算想随便应付一下,但是因为一直不主动,结果自己的被别人说的差不多了,所以不得以推翻重来。这涉及.close()方法与.quit()方法的区别,前者是只关掉当前正在进行操作的窗口,后者则是关掉所有窗口,相当于直接把浏览器给关掉。剩下的也没什么好讲的,毕竟比较简单,代码上注释也已经很详细了哈。,在这个上面下载即可。原创 2023-04-26 19:12:49 · 484 阅读 · 0 评论 -
requests库爬取页面出现乱码
不知道为什么这段时间爬取页面总是会出现乱码,类似于下图:一开始当然会以为是自己被反爬了,然后一个劲的往headers里塞东西,但是并没有什么卵用,直到后来发现可能是编码格式的问题,原代码:import requestsurl='http://www.baidu.com/'headers={ 'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:100.0) Gecko/20100101 Firefox/100.0',原创 2022-05-28 23:28:18 · 359 阅读 · 0 评论 -
Lxml库安装
pip3安装lxml出现报错可以转去这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml下载对应的.whl文件,但是我下了很多个都出现了这样的情况网上说是要改对应的文件名,敲pip3debug--verbose(你用的是pip安装就敲pip)然后就有下图的这些名字是可以的把对应的名字改成这样,再敲一遍图二的命令lxml库就安装好了。而且不仅是lxml,后期的scrapy等都会用到这些操作的。......原创 2022-04-09 10:23:12 · 1456 阅读 · 0 评论 -
selenium模拟登陆教务系统
之前学习了selenium的安装和上手,现在来一次模拟登陆教务系统,登陆页面如下解除右键禁用当然在此之前因为这个教务系统网站不能右键检查元素,所以我们用之前学的方法解除右键禁用定位元素首先检查元素发现这个登陆页面是作为一个iframe嵌在主页面中的,所以要想用selenium定位到这个登陆页面的元素的话,得先定位到iframe中window.switch_to.frame('frm_login') 之后就是常规的获取元素,但是这里有个坑,就是在密码处有两个input,有一个是假的,最后会h原创 2022-04-11 17:00:58 · 839 阅读 · 0 评论