使用requests抓取天眼查信息

大家在抓取的过程中,肯定遇见过有些内容需要在登陆之后才能抓取的,上一篇中为大家带来了使用selenium抓取天眼查保存到excel.但是selenium效率慢的怀疑人生,今天呢,为大家带来的是使用requests抓取天眼查,很简单,说一下headers部分,携带的cookis是已经登陆过的,重点是在浏览器中将登陆过的headers请求头复制下来,然后找对链接请求传参就行了。好了,话不多说,由于比较简单,就没有写注释,如有看不明白的地方,欢迎留言!上图!
这里写图片描述
下边是抓下来的效果图:
这里写图片描述
就这么多了,是不是很简单呢,所以说,爬虫,思路很重要,如有兴趣的小伙伴,可以尝试将代码改为多线程哦

使用Python的requests抓取搜索结果页面的数据通常涉及以下几个步骤: 1. **导入库**:首先需要导入requests库,它是Python中最常用的一个用于发送HTTP请求的工具。 ```python import requests ``` 2. **设置URL**:构造你要抓取的搜索引擎搜索结果页面的URL,比如Google搜索"Python",URL可能会类似: ```python url = "https://www.google.com/search?q=python" ``` 3. **发送GET请求**:使用`requests.get()`函数向指定的URL发起GET请求,并获取响应内容。 ```python response = requests.get(url) ``` 4. **检状态码**:确保请求成功,通常200表示成功。 ```python if response.status_code == 200: pass # 请求成功 else: print(f"请求失败,状态码:{response.status_code}") ``` 5. **解析HTML**:由于返回的是HTML格式的网页,通常需要进一步解析。可以使用如BeautifulSoup、PyQuery等库处理HTML。 6. **提取信息**:通过选择器或者其他方法从解析后的HTML中提取你需要的数据,比如搜索结果的标题、链接等。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') results = soup.find_all('div', class_='g') # 这里假设搜索结果在名为"g"的div标签内 for result in results: title = result.h3.a.text # 提取标题 link = result.h3.a['href'] # 提取链接 # ...其他信息提取 ``` 7. **保存或分析数据**:将提取的数据保存到文件或直接进行后续分析操作。 ```python with open("search_results.txt", "w") as f: for item in data: f.write(f"{title}\n{link}\n\n") # 或者直接进行数据分析 analyze_data(data) ```
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值