爬虫
energy_百分百
while(1){慢几步,深几度}
展开
-
Python下 etree.xpath 中 双斜杠 和单斜杠的区别
标识 含义 ‘//’ 表示从任意节点的任意子节点开始 ‘/’ 表示从当前节点开始 因此一般在xpath输入字符串参数中会以'/'开头,如果以'//'开头会直接从根节点的第一个子节点开始匹配,如果匹配不到返回空 ...原创 2021-01-28 21:50:25 · 2677 阅读 · 0 评论 -
使用 urlretrieve 实现 通过 http 获取文件并继续下载
很多较大的资源,在网络速度和稳定性较差的环境下,经常会出现下载失败的问题,而request下的 urlretrieve 方法又不支持在上次下载的基础上继续下载。 如果想要使用 urlretrieve 方法下载较大资源,可以尝试使用一个第三方库–resumable-urlretrieve,这个库在原有urlretrieve库的基础上实现了在未完成的下载任务下继续下载的功能。 主页如下:https://www.cnpython.com/pypi/resumable-urlretrieve 当然 你也可以使用pi原创 2020-09-19 22:15:15 · 385 阅读 · 0 评论 -
#最全面# BeautifulSoup 中 获取标签下的文本
常用方法: 使用get_text()方法可以获取当前标签下的所有文字,包括其子标签的,该方法可自动剔除其余的修饰标签 若当前标签的子节点是文字,可使用.string获得其下的文本内容 高阶方法: 若文本属于此标签的一个子节点、兄弟节点、父节点等,可灵活使用以下遍历方法进行获取: 1.下行遍历 标签树的下行遍历 .content 子节点列表,将tag所有儿子节点存入列表 .children子节点的迭代类型,与.contents类似用于循环遍历儿子节点 .descendants 子孙节点的迭代类型,包含所原创 2020-05-09 20:21:44 · 13707 阅读 · 0 评论 -
windows下配置 chromedriver
1. 根据浏览器版本下载对应版本的chrome驱动 在chrome浏览器的地址栏输入如下地址,查看chrome浏览器版本: chrome://version/ 在如下网站下载 chromedriver 驱动文件,并将下载的压缩包解压,最后将得到的 chromedriver.exe 文件拷贝到 python 编译器的 Scripts 目录下 通过 pip 命令 安装 selenium 通过命...原创 2020-04-14 22:49:50 · 802 阅读 · 1 评论
分享