爬虫
嵩桓
没有什么诀窍,就是慢慢的熬
展开
-
scrapy爬取某网站,设置cookies
为什么要伪装cookies 在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问。我们以前即使写的伪装了代理ip,设置了头信息,但是运行次数多了还是会被封。 由于本节只是单纯的想保持一下登陆状态,所以就不写复杂的获取页面了 原理 一般情况下,网站通过存放在客户端的一个被称作cookie的小文件来存放用户的登陆信息。在浏览器访问网站的时候,会把这个小文件发往服务器,然后...转载 2018-10-11 23:20:17 · 2952 阅读 · 1 评论 -
selenium爬去数据,能找到父元素,find_elements_by_xpath不能找到下面的子元素
1.先来看一份数据 ![在这里插入图片描述](https://img-blog.csdn.net/20181019160743971?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MTY2NjA1MQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) ...原创 2018-10-19 17:13:20 · 12325 阅读 · 3 评论 -
python 根据地址反求出经纬度
方法一: import requst import json def getlnglat(address): ak = 'f30c9d52b003c2b3ac089e2672e18baf' url="http://restapi.amap.com/v3/geocode/geo?key=%s&address=%s"%(ak,address)data=requests.get(url) ...转载 2018-10-19 17:12:56 · 1812 阅读 · 0 评论 -
scrapy 提取多层嵌套标签下的所有文本
怎样才能一次性提取多层嵌套标签的所有文本,详细如下: 假如页面如下: <p id='test'>hello<b>world!</b></p> 我要的提取结果是:world!(假设world是很多标签组合的文本) 这里就需要注意text()的使用了: 首先设置sel = Selector(text=doc, type='html') 如果text(...原创 2018-10-10 19:39:42 · 2546 阅读 · 0 评论