利用python爬取飞猪信息_Python实战：飞猪IP池爬虫（8）

最新推荐文章于 2025-10-09 09:53:24 发布

原创

最新推荐文章于 2025-10-09 09:53:24 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#利用python爬取飞猪信息

本文介绍了使用Python爬取飞猪IP网站资讯的过程，包括获取二级页面路径和标题，解析网页结构，以及使用csv模块将数据存储到CSV文件中。通过示例代码详细展示了如何发起HTTP请求，解析HTML内容，以及如何处理和存储数据。

数据采集目标飞猪IPwww.feizhuip.com

通过访问飞猪IP第一级页面，获取飞猪ip资讯模块

1.二级页面的路径

2.二级页面的标题

通过访问飞猪IP第二级页面，获取飞猪ip资讯模块：详细信息

分析网页结构

F12开发者工具，选择光标按钮，选择页面内容，跳转内容标签位置

ctrl+f 查询

输入 div class="info" 确保标签的属性使用不多

把div class="info"作为查询条件，获取3个div标签，list[div,div,div(ip)]

访问ip的div：list[2]

编码阅读

在网页头部head内部存在mate标签，可以查看charset=编码格式，脚本内部需要和网页统一

本地存储

mysql、mangoDB、redis、txt、csv表格

python中的csv模块

主要函数有下面两个：csv.reader(csvfile, dialect='excel', **fmtparams)返回值：一个reader对象，这个对象是可以迭代的，有个line_num参数，表示当前行数

参数表：csvfile

需要是支持迭代(Iterator)的对象，并且每次调用next方法的返回值是字符串(string)，通常的文件(file)对象，或者列表(list)对象都是适用的

dialect

编码风格，默认为excel方式，也就是逗号(,)分隔，另外csv模块也支持excel-tab风格，也就是制表符(tab)分隔。其它的方式需要自己定义，然后可以调用register_dialect方法来注册，以及list_dialects方法来查询已注册的所有编码风格列表。

fmtparam

格式化参数，用来覆盖之前dialect对象指定的编码风格。

csv.writer(csvfile, dialect='excel', **fmtparams)返回值：返回一个writer对象，这个对象有两个函数writerow()和writerows()

参数表：跟csv.reader()的参数表一样

import csv

# 读取一个 csv 文件

myfilepath = 'C:/Users/a/Desktop/mytablib.csvNew'

# 这里用到的 open 都要加上 newline='' 否则会多一个换行符(标准库文档里说的)

myfile = open(myfilepath, 'r', newline=''

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。