python爬虫
Pyask
这个作者很懒,什么都没留下…
展开
-
Python爬虫解决javascript:void(0)加载查看更多的解决方法
无论是下拉加载更多内容还是一篇文章内容点击查看更多才能看完全文,都可以使用selenium来解决。下拉加载更多问题有两种解决方法,一种是通过查看是否有接口,通过接口获取所有内容,如果不好找到对应接口,则可以使用selenium;另外就是文章中查看更多内容,有的页面在获取htmlcode后,会显示除完整的文章内容,但是部分网站即时显示所有内容,在抓取的时候仍然获取不到整篇文章。 这里以顺企网的企业黄页内容为例,通过下图可见文字内容过多时,需要通过点击“... 展开”开查看更多...原创 2021-08-13 11:10:07 · 3281 阅读 · 0 评论 -
pyinstaller打包提示PermissionError: [Errno 13] Permission denied....\\ucrtbase.dll权限问题
用Python写了个百度提交工具,想着使用Python打包能够分享给别人用,因为换了新电脑,所有Python的包都从新安装了一下。之前在笔记本电脑上第一次使用pyinstaller打包时,就出现了各种问题,不过后来也解决了。当时想着换个电脑都是第一次应该没问题,恩,不错所料的,pyinstaller -F xxxx.py 回车就开始打包,最后一步就提示报错PermissionError: [Errno 13] Permission denied....\\ucrtbase.dll,查看dist文件夹中空原创 2021-01-10 17:06:51 · 9393 阅读 · 6 评论 -
随机获取列表中的一个IP地址进行代理
如果是json文件,需要读取文件,导入json模块进行转换后再进行处理。with open('ip.json','r') as w: json.loads(f.read())# 随机获取一个ip进行代理from urllib import request# 导入随机模块import random# 获取所有代理def getProxy(): data =原创 2018-01-09 20:58:52 · 1135 阅读 · 0 评论 -
Python爬虫入门:使用urllib模块获取请求页面信息
欢迎来到拖更王的小博客,天天想着要把学习和工作中遇到的内容发布到空间,但是因为忙总是忘(这个借口真好)。以后还应该会坚持什么时候想起来什么时候更新的好习惯吧。 今天说一下python爬虫中一个常用的模块urllib,urllib和requests一样都是用来发起页面请求进行获取页面信息的模块,但是不同的是requests要比urllib更强大,用起来更方便,requests属于第三方模块,...原创 2018-08-09 10:04:51 · 1063 阅读 · 0 评论