爬虫--简介,Selenium + chromedriver

本文介绍了Python爬虫的基础知识,包括浏览器端口、User-Agent、Cookie、数据可视化工具pyecharts和数据存储格式JSON及CSV。特别讨论了如何使用Selenium和ChromeDriver来爬取AJAX数据,包括安装步骤和基本操作,如定位元素、操作表单、行为链、页面等待等。此外,还提到了图形验证码识别技术和Tesseract OCR库的安装与使用。
摘要由CSDN通过智能技术生成

爬虫(上)

        --基本,Selenium + chromedriver

一、基本知识

1、当你访问一个网站的时候浏览器默认使用80端口

2、  User-Agent:浏览器名称
        Referer:表明当前请求从那个url过来的
        Cookie:登录后才能访问的网站就需要发送cookie

3、数据可视化

pyecharts库
安装pip install pyecharts
使用步骤:
(1)导入Bar(柱状图)
        form pyecharts import Bar
(2)创建Bar对象
        chart = Bar("柱状图表的名")
(3)使用Bar对象添加数据
        Bar对象的add()方法
(4)生成本地文件
        Bar对象的render()方法
教程:https://www.jianshu.com/p/554d64470ec9

4、数据存储

Json

JSON数据:json数据本质就是一个字符串
数据格式:
        1、对象(字典),使用花括号
        2、列表(数组),使用方括号
        3、整型、浮点型,布尔类型、null类型
        4、字符串类型,注:必须使用双引号,不能使用单引号,多个数据之间逗号分隔
JSON在线解析网址:https://www.json.cn

python字典、列表转换为JSON数据:
使用json模块,内置模块
(1)转换为JSON数据字符串
        import json
        #xxx为列表或字典
        json_str = json.dumps(xxx)
(2)转换为JSON数据并写入文件
        import json
        #xxx为列表或字典,存储中文的话打开文件需要指定编码
        #并设置ensure_ascii=Flase
        with open("xxx.json", "w",encoding="utf-8") as f:
                json.dump(xxx, f, ensure_ascii=Flase)
注:只有基本数据类型才能转换成JSON格式字符串,如int、float、str、list、dict、tuple
如果使用自定义对象、函数等类型序列化的时候会出错

JSON数据转换为python字典:
使用json模块,内置模块
(1)直接从文件读取
        import json
        with open("xxx.json", "r",encoding="utf-8") as f:
                    python_obj = json.load(f)
注:如果最外层是个[]就转换成python列表,如果最外层是个{}就转换成python字典
(2)JSON字符串转换
        import json
        #xxx为一个JSON字符串
        python_obj = json.loads("xxx")

CSV

csv文件的特征
    1、纯文本
    2、有记录组成(典型的是每行代表一条记录)
    3、每条记录被分隔符分割成字段(典型分隔符逗号、分号)
    4、每条记录都有同样的字段序列
例:        name, age, height
            小花,18,180
            小黑,13,150

csv文件处理:使用csv模块,内置模块,import csv

(1)读

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值