爬虫
energy_百分百
while(1){慢几步,深几度}
展开
-
Python下 etree.xpath 中 双斜杠 和单斜杠的区别
标识含义‘//’表示从任意节点的任意子节点开始‘/’表示从当前节点开始因此一般在xpath输入字符串参数中会以'/'开头,如果以'//'开头会直接从根节点的第一个子节点开始匹配,如果匹配不到返回空...原创 2021-01-28 21:50:25 · 2604 阅读 · 0 评论 -
使用 urlretrieve 实现 通过 http 获取文件并继续下载
很多较大的资源,在网络速度和稳定性较差的环境下,经常会出现下载失败的问题,而request下的 urlretrieve 方法又不支持在上次下载的基础上继续下载。如果想要使用 urlretrieve 方法下载较大资源,可以尝试使用一个第三方库–resumable-urlretrieve,这个库在原有urlretrieve库的基础上实现了在未完成的下载任务下继续下载的功能。主页如下:https://www.cnpython.com/pypi/resumable-urlretrieve当然 你也可以使用pi原创 2020-09-19 22:15:15 · 376 阅读 · 0 评论 -
#最全面# BeautifulSoup 中 获取标签下的文本
常用方法:使用get_text()方法可以获取当前标签下的所有文字,包括其子标签的,该方法可自动剔除其余的修饰标签若当前标签的子节点是文字,可使用.string获得其下的文本内容高阶方法:若文本属于此标签的一个子节点、兄弟节点、父节点等,可灵活使用以下遍历方法进行获取:1.下行遍历标签树的下行遍历.content 子节点列表,将tag所有儿子节点存入列表.children子节点的迭代类型,与.contents类似用于循环遍历儿子节点 .descendants 子孙节点的迭代类型,包含所原创 2020-05-09 20:21:44 · 13589 阅读 · 0 评论 -
windows下配置 chromedriver
1. 根据浏览器版本下载对应版本的chrome驱动在chrome浏览器的地址栏输入如下地址,查看chrome浏览器版本:chrome://version/在如下网站下载 chromedriver 驱动文件,并将下载的压缩包解压,最后将得到的 chromedriver.exe 文件拷贝到 python 编译器的 Scripts 目录下通过 pip 命令 安装 selenium通过命...原创 2020-04-14 22:49:50 · 785 阅读 · 1 评论