用python爬取网站_「自如网」关于用python爬取自如网信息的价格问题(已解决) - seo实验室...

博主尝试通过Python爬取自如网的租房数据,特别是月租信息,但遇到网站的反爬机制。月租数字是以背景图片的位移量来表示的。目前能提取图片中的数字,但无法获取位移量。解决方案可能涉及图像处理库如pytesseract和PIL,以及可能需要使用硒(Selenium)进行动态抓取。问题已解决,但具体方法未在文中详述。
摘要由CSDN通过智能技术生成

自如网

###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不定先贴个网址:http://www.ziroom.com/z/nl/z2.html 关键是月租这个数据,我发现了他的 机制 **:月租的每个数字是由每个网页提供的一个背景图片background-image里面,里面随机排布了9个数字 ![ 就这样]

2018092022594814.png 然后每个他的每个数字是根据位移量确定的,每个数字占30个单位就比如 ![ ] (

20180920230026428.png

这个鬼样子 , 位移量分别为240,210,0,150.就对应着第9 ,第8,第1,第6个数字。**

下面代码说明读取图片中的数字(也可以用于解析验证码),这样就提取出来图片中的数字

#需要安装pytesseract,PIL,的tesseract等库

进口pytesseract

从PIL进口图片DEF CanKao_List(对应,故): 图像= Image.open(对应,故) VCODE = [] all_vcode = pytesseract.image_to_string(图像) 中对于i all_vcode: vcode.APPend(i) 返回vcode print(CanKao_List(“C:/ Users / zs / Desktop / py /自如租房/1.png”))```

然后是获取图片部分`for j in range(1 ,51):

#u2 ---二居

url ='http://'+ city [i] +'.ziroom.com / z / nl / z2.html'

req = requests.get(url,headers = headers )

ima_url = re.findall(“body.ratio2 .price span.num {\ n \ s * background-size:auto 30px; \ n \ s * background-image:URL(*); \ n}“,req.text,re.S)

` 这样可以图片电子杂志地址所以我想求助各位大佬,怎么获取位移量,源代码没有,好像要用硒,但是有人试了也没提取出来(可能是她太菜)有人能提供下思路么

-------------------------------------------有脾气的分割线----------------------------------------------------

以解决哈哈哈哈哈哈哈哈哈 就是用那个库 , 不过那个网站做了反爬机制 ,我发到我的文件里吧,或者去我公众号里拿,回复 自如 即可

20180913002650562.jpg

相关阅读

cookie的问题捣鼓了好久,本来以为要用正则提取JSESSIONID跟Referer,后来发现模拟点击成绩管理的按钮(就是链接啦)cookie会自己更新的

using System;

using System.Management;

public class Sample

{

public static void Main(string[] args)

{

使用python3,数字炸弹游戏规则:在一个数字范围内,有一个数字作为炸弹,谁猜中这个炸弹就被惩罚。比如范围是1~100,炸弹是60,然后猜了

python2,3共存:第一节:python基本概念:Python交互模式,它的提示符是>>>基本命令:exit()python基本语言:1.          .py

不同类型的语言支持不同的数据类型,比如 Go 有 int32、int64、uint32、uint64 等不同的数据类型,这些类型占用的字节大小不同,而同样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值