![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
逗le个芽
这个作者很懒,什么都没留下…
展开
-
Python 抓取页面使用 XPath 出现的问题
Python 抓取页面使用 XPath 出现的问题 在抓取页面时,有时候需要多次使用 .xpath 方法来获取需要的元素。 在使用 .xpath 方法时,第一次 .xpath 的结果是正确的,而之后使用会出现抓取到的东西和预期不一样的情况。 比如: trs = html.xpath('//table//tr') 获得的 trs 是表中的行元素,之后想要获取其中的格元素时: for i in ra...原创 2020-03-04 20:51:54 · 717 阅读 · 0 评论 -
Python爬虫 获取免费的代理Ip
** Python爬虫 获取免费的代理Ip ** 最近在学习爬虫,在抓取b站弹幕的时候,由于同一ip访问次数过多,出现了ip地址被禁止访问的情况。当时贪写起来简单,就没有调取MongoDB数据库存储,使得前面抓取的网页全部丢失了,实在是有点得不偿失。 在网上简单查了一下,出现不明原因访问禁止主要有以下两种解决方法: 推迟调用线程的运行,比如 time.sleep() 在发送请求时使用代理 在这...原创 2019-08-19 11:24:13 · 612 阅读 · 0 评论