Python爬虫入门——梦开始的地方

最新推荐文章于 2024-08-10 23:14:03 发布

三点水、

最新推荐文章于 2024-08-10 23:14:03 发布

阅读量412

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73743992/article/details/131449651

版权

该文章是作者入门爬虫的首个项目，详细介绍了如何使用Python和XPath从链家网抓取二手房信息。文章涵盖前置知识如基础Python和XPath，以及实现步骤，包括分析网站、制定爬取方案、发起请求、数据解析、保存数据，并展示了基础代码和异常处理。最后，作者将代码进行封装，创建了一个简单的LiJia类来运行爬虫。

摘要由CSDN通过智能技术生成

目录

一、前置知识

二、实现步骤

2.制定爬取方案

4.基础代码展示

前言

爬虫应严格遵守国家法律规定

时隔数月，进入暑假，回忆这数月的学习内容，不禁感慨计算机的世界是无比的广阔。

面对逐渐遗忘的爬虫知识，我必须重新拾起，保持自己的竞争力。

本篇文章简单通俗，是我入门爬虫的第一个项目。

一、前置知识

基础Python语法

简单利用xpath的解析方法，实现对链家网的二手房信息的获取。

二、实现步骤

1.分析网站

确定爬取的内容——二手房信息
分析网页源代码——请求方式，信息在哪里

2.制定爬取方案

本网站极其简单，信息直接呈现在网页源代码中

3.实现方案

准备工作——url，headers，...
发起请求——requests
数据解析——xpath简单使用
数据保存——文件操作

4.基础代码展示

import requests
from lxml import etree

url = '...'
headers = {}
resp = requests.get(url, headers=headers)
# print(resp)
response = resp.text
# print(response)
html = etree.HTML(response)

data_list = html.xpath('//ul[@class="sellListContent"]//li')
# print(data_list)
idx=1
for li in data_list:
    try:

        name = li.xpath('./div[1]/div[1]/a/text()')[0]
        address1 = li.xpath('./div[1]/div[2]/div/a[1]/text()')[0]
        address2 = li.xpath('./div[1]/div[2]/div/a[2]/text()')[0]
        size = li.xpath('./div[1]/div[3]/div/text()')[0]
        total_money = li.xpath('./div[1]/div[6]/div[1]/span/text()')[0]
        price = li.xpath('./div[1]/div[6]/div[2]/span/text()')[0]
        info = "房名: " + name + "\n地址: " + address1 + "-" + address2 + "\n面积: " + size + "\n总价: " + total_money + "万" + "\n单价: " + price+"\n\n"

        with open('...txt','a',encoding='utf-8') as file:
            file.write(info)
            print(f"{idx}保存成功")
            idx+=1
        # print(name,address1,address2,size)
    except Exception as e:
        pass

5.代码详解

requests——发起请求
etree——数据解析工具
url——目标网址
headers——爬虫伪装
.text——获得网页代码
HTML()——解析网页
xpath()——路径取值
try...except..——异常处理
- 为什么会有异常？在网页中存在广告
with .. open..——上下文管理器

6.代码封装

import requests
from lxml import etree


class LiJia(object):
    def __init__(self):
        self.url = '...'
        self.headers = {}
        self.idx = 1

    def send_requests(self):
        resp = requests.get(self.url, heapq=self.headers)
        response = resp.text
        self.parse_data(response)

    def parse_data(self, response):
        html = etree.HTML(response)
        data_list = html.xpath('//ul[@class="sellListContent"]//li')
        for li in data_list:
            try:
                name = li.xpath('./div[1]/div[1]/a/text()')[0]
                address1 = li.xpath('./div[1]/div[2]/div/a[1]/text()')[0]
                address2 = li.xpath('./div[1]/div[2]/div/a[2]/text()')[0]
                size = li.xpath('./div[1]/div[3]/div/text()')[0]
                total_money = li.xpath('./div[1]/div[6]/div[1]/span/text()')[0]
                price = li.xpath('./div[1]/div[6]/div[2]/span/text()')[0]
                info = "房名: " + name + "\n地址: " + address1 + "-" + address2 + "\n面积: " + size + "\n总价: " + total_money + "万" + "\n单价: " + price + "\n\n"
                self.save_data(info)
            except IndexError:
                pass

    def save_data(self, content):
        with open('....', 'a', encoding='utf-8') as file:
            file.write(content)
            print(self.idx, "保存成功")
            self.idx += 1

    def run(self):
        self.send_requests()


if __name__ == '__main__':
    spider = LiJia()
    spider.run()

总结

以上便是我走进爬虫的第一个案例

需要完成本案例我们要掌握Python基本语法和xpath的基本语法使用

感谢大家支持。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python爬虫入门——梦开始的地方

本篇文章简单通俗，是我入门爬虫的第一个项目。完成本案例我们要掌握Python基本语法和xpath的基本语法使用。
复制链接

扫一扫

三点水、 CSDN认证博客专家 CSDN认证企业博客

码龄2年

13: 原创

133万+: 周排名

106万+: 总排名

3690: 访问

: 等级

223: 积分

5: 粉丝

10: 获赞

6: 评论

14: 收藏

私信

关注

热门文章

分类专栏

重拾爬虫付费
基础算法 6篇

最新评论

Python爬虫入门——梦开始的地方
CSDN-Ada助手: 恭喜您写了第11篇博客！标题中的“梦开始的地方”让我充满期待地点击了进来。作为一个对Python爬虫感兴趣的初学者，我非常喜欢您分享的入门经验。您的博客内容浅显易懂，让我对Python爬虫有了更清晰的认识。希望您能继续坚持创作，我相信您在Python爬虫领域还有更多精彩的内容等待我们的探索。同时，如果可以的话，我期待您能分享一些实战案例，或者是进一步深入某些技术细节，让我们能更好地应用和理解Python爬虫。再次恭喜您的创作成果，期待着您的下一篇博客！谢谢您的无私分享，您的努力一定会对我们这些初学者产生积极的影响。
周周结——一
CSDN-Ada助手: 恭喜您写完了第12篇博客！标题为“周周结——一”的文章看起来很有潜力。您的坚持和持续创作令人钦佩。在这篇博客中，您似乎探讨了某种周结的方式，这是一个非常有意思的主题。接下来，我想提供一些建议以帮助您继续发展您的创作。或许您可以在博客中更多地分享您在周结中的实践经验，或者深入探讨周结对个人成长的影响。此外，您还可以考虑结合一些案例研究或者提供一些实用的技巧，以帮助读者更好地应用周结的方法。请继续保持谦虚的态度，并且相信自己的创作才能。期待您下一步的创作！
python实现字符串逆序
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
Python基础知识笔记（小白学习路）
罗杰546: 太牛了，大神求带

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。