爬虫(上)
--基本,Selenium + chromedriver
一、基本知识
1、当你访问一个网站的时候浏览器默认使用80端口
2、 User-Agent:浏览器名称
Referer:表明当前请求从那个url过来的
Cookie:登录后才能访问的网站就需要发送cookie
3、数据可视化
pyecharts库
安装pip install pyecharts
使用步骤:
(1)导入Bar(柱状图)
form pyecharts import Bar
(2)创建Bar对象
chart = Bar("柱状图表的名")
(3)使用Bar对象添加数据
Bar对象的add()方法
(4)生成本地文件
Bar对象的render()方法
教程:https://www.jianshu.com/p/554d64470ec9
4、数据存储
Json
JSON数据:json数据本质就是一个字符串
数据格式:
1、对象(字典),使用花括号
2、列表(数组),使用方括号
3、整型、浮点型,布尔类型、null类型
4、字符串类型,注:必须使用双引号,不能使用单引号,多个数据之间逗号分隔
JSON在线解析网址:https://www.json.cnpython字典、列表转换为JSON数据:
使用json模块,内置模块
(1)转换为JSON数据字符串
import json
#xxx为列表或字典
json_str = json.dumps(xxx)
(2)转换为JSON数据并写入文件
import json
#xxx为列表或字典,存储中文的话打开文件需要指定编码
#并设置ensure_ascii=Flase
with open("xxx.json", "w",encoding="utf-8") as f:
json.dump(xxx, f, ensure_ascii=Flase)
注:只有基本数据类型才能转换成JSON格式字符串,如int、float、str、list、dict、tuple
如果使用自定义对象、函数等类型序列化的时候会出错JSON数据转换为python字典:
使用json模块,内置模块
(1)直接从文件读取
import json
with open("xxx.json", "r",encoding="utf-8") as f:
python_obj = json.load(f)
注:如果最外层是个[]就转换成python列表,如果最外层是个{}就转换成python字典
(2)JSON字符串转换
import json
#xxx为一个JSON字符串
python_obj = json.loads("xxx")
CSV
csv文件的特征
1、纯文本
2、有记录组成(典型的是每行代表一条记录)
3、每条记录被分隔符分割成字段(典型分隔符逗号、分号)
4、每条记录都有同样的字段序列
例: name, age, height
小花,18,180
小黑,13,150csv文件处理:使用csv模块,内置模块,import csv
(1)读