利用python爬取飞猪信息_Python实战:飞猪IP池爬虫(8)

本文介绍了使用Python爬取飞猪IP网站资讯的过程,包括获取二级页面路径和标题,解析网页结构,以及使用csv模块将数据存储到CSV文件中。通过示例代码详细展示了如何发起HTTP请求,解析HTML内容,以及如何处理和存储数据。
摘要由CSDN通过智能技术生成

数据采集目标飞猪IP​www.feizhuip.com

通过访问飞猪IP第一级页面,获取飞猪ip资讯模块

1.二级页面的路径

2.二级页面的标题

通过访问飞猪IP第二级页面,获取飞猪ip资讯模块:详细信息

分析网页结构

F12开发者工具,选择光标按钮,选择页面内容,跳转内容标签位置

ctrl+f 查询

输入 div class="info" 确保标签的属性使用不多

把div class="info"作为查询条件,获取3个div标签,list[div,div,div(ip)]

访问ip的div:list[2]

编码阅读

在网页头部head内部存在mate标签,可以查看charset=编码格式,脚本内部需要和网页统一

本地存储

mysql、mangoDB、redis、txt、csv表格

python中的csv模块

主要函数有下面两个:csv.reader(csvfile, dialect='excel', **fmtparams)返回值:一个reader对象,这个对象是可以迭代的,有个line_num参数,表示当前行数

参数表:csvfile

需要是支持迭代(Iterator)的对象,并且每次调用next方法的返回值是字符串(string),通常的文件(file)对象,或者列表(list)对象都是适用的

dialect

编码风格,默认为excel方式,也就是逗号(,)分隔,另外csv模块也支持excel-tab风格,也就是制表符(tab)分隔。其它的方式需要自己定义,然后可以调用register_dialect方法来注册,以及list_dialects方法来查询已注册的所有编码风格列表。

fmtparam

格式化参数,用来覆盖之前dialect对象指定的编码风格。

csv.writer(csvfile, dialect='excel', **fmtparams)返回值:返回一个writer对象,这个对象有两个函数writerow()和writerows()

参数表:跟csv.reader()的参数表一样

import csv

# 读取一个 csv 文件

myfilepath = 'C:/Users/a/Desktop/mytablib.csvNew'

# 这里用到的 open 都要加上 newline='' 否则会多一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值