Python爬虫基础—使用函数封装的形式写爬虫

一、导入所需要的模块(包)

import request
import csv
from bs4 import BeautifulSoup
from tqdm import tqdm

二、负责发送请求,得到响应结果,并返回网页源代码的函数

def get_response(link: str) -> str:
	Headers = {
	'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
	}
	response = requests.get(url=link, headers=Headers)
	return response.text if response.status_code == 200 else ''

三、负责提取页面信息的函数

def get_data(html_tree):
	# 1.先获取每页所有二手房所在的li标签
	lilist = html_tree.select('html > body > div.content ul.sellListContent > li')
	data = []
	# 2.提取每一条二手房信息
	for i in lilist;
	 	# 二手房标题
     	houseTitle = i.select_one('li > div.info.clear > div.title > a').text
     	# 二手房单价
     	priceInfo = i.select('li > div.info.clear > div.priceInfo span')
   	    # 二手房总价
     	total_price, unit_price = priceInfo[0].text + '万元', priceInfo[1].text
     	data.append([houseTitle, unit_price, total_price])
	return data

四、程序主函数并负责将收集信息写入CSV文件

def main():
	# 打开文件
	file = open('./链家二手房.csv', 'w', encoding='utf-8', newline='')
	# 利用CSV模块中的writer类写入列名
	csv.writer(file).writerow(['标题', '单价', '总价'])
	for page in tqdm(range(1, 101), desc='链家二手房爬虫'):
        URL = f'https://cd.lianjia.com/ershoufang/pg{page}/'
        # 1.先请求链接,拿到网页源代码
        htmlStr = get_response(URL)
        # 2.解析网页源代码,转换为树结构
        soup = BeautifulSoup(htmlStr, 'html.parser')
        # 3. 提取信息
        result = get_data(soup)
        # 同时写入这一页的多条数据
        csv.writer(file).writerows(result)

	# 关闭文件
	file.close()

# 在此处调用函数
# 函数被定义时不会执行,被调用时才会执行
main()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

㤅uu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值