![](https://img-blog.csdnimg.cn/20200513155536133.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫知识点
学习爬虫哪些日子
一颗小小白杨树
人生苦短,我学python
展开
-
正则表达式——re.match方法
正则表达式 导入模块import re match()从左往右,从起始部分开始匹配 1.单字符匹配打印----match()方法,group()方法 text = 'python' reslut = re.match('py', text) # 结果存储在一个Object对象里,使用group打印 print(reslut.group()) # 2.'.'匹配任意字符,但无法匹配换行符'\n' text = '_1python' reslut = re.match('.', text) print(res原创 2020-05-19 21:48:51 · 1666 阅读 · 0 评论 -
Python爬虫常用模块:Requests模块学习
Requests:自动爬取HTML页面,自动网络请求提交 介绍:https://requests.readthedocs.io/en/master/ 安装:pip install requests 检测: import requests r = requests.get("https://www.baidu.com") print(r.status_code) //状态码为200访问成功 Requests库共有7个主要方法 requests.request() 构造一个请求,支撑以下各方原创 2020-05-13 15:24:40 · 253 阅读 · 0 评论 -
图片识别文字模块Tesseract模块
Tesseract模块 tesseract库是一个将图像翻译成文字的OCR(光学文字识别)库 安装 Tesseract sudo apt-get install tesseract-ocr 命令 tesseract 图片文件.jpg text 会生成一个.txt文件 python使用安装模块 pytesseract pip install pytesseract 在python中使用 import pytesseract from PIL import Image image = Image.open(原创 2020-05-13 15:03:25 · 574 阅读 · 0 评论 -
selenium Web的自动化测试工具
selenium Web的自动化测试工具 安装selenium pip install selenium 导入: from selenium import webdriver 实例化 : driver = webdriver.Chrome() driver.get('www.baidu.com') 语法 返回html字符串,浏览器的elements内容 : driver.page_source 设置浏览器大小 : driver.set_window_size(1920, 1080)原创 2020-05-13 15:00:28 · 228 阅读 · 0 评论