数据采集目标飞猪IPwww.feizhuip.com
通过访问飞猪IP第一级页面,获取飞猪ip资讯模块
1.二级页面的路径
2.二级页面的标题
通过访问飞猪IP第二级页面,获取飞猪ip资讯模块:详细信息
分析网页结构
F12开发者工具,选择光标按钮,选择页面内容,跳转内容标签位置
ctrl+f 查询
输入 div class="info" 确保标签的属性使用不多
把div class="info"作为查询条件,获取3个div标签,list[div,div,div(ip)]
访问ip的div:list[2]
编码阅读
在网页头部head内部存在mate标签,可以查看charset=编码格式,脚本内部需要和网页统一
本地存储
mysql、mangoDB、redis、txt、csv表格
python中的csv模块
主要函数有下面两个:csv.reader(csvfile, dialect='excel', **fmtparams)返回值:一个reader对象,这个对象是可以迭代的,有个line_num参数,表示当前行数
参数表:csvfile
需要是支持迭代(Iterator)的对象,并且每次调用next方法的返回值是字符串(string),通常的文件(file)对象,或者列表(list)对象都是适用的
dialect
编码风格,默认为excel方式,也就是逗号(,)分隔,另外csv模块也支持excel-tab风格,也就是制表符(tab)分隔。其它的方式需要自己定义,然后可以调用register_dialect方法来注册,以及list_dialects方法来查询已注册的所有编码风格列表。
fmtparam
格式化参数,用来覆盖之前dialect对象指定的编码风格。
csv.writer(csvfile, dialect='excel', **fmtparams)返回值:返回一个writer对象,这个对象有两个函数writerow()和writerows()
参数表:跟csv.reader()的参数表一样
import csv
# 读取一个 csv 文件
myfilepath = 'C:/Users/a/Desktop/mytablib.csvNew'
# 这里用到的 open 都要加上 newline='' 否则会多一