![](https://img-blog.csdnimg.cn/1db34348024c46b99a6c99cb27707af5.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python网络爬虫
文章平均质量分 60
requests
scrapy
selenium
Mr_Stutter
啊啊啊啊啊欢迎
展开
-
Python网络爬虫系列目录
提交请求requests库笔记:Python爬虫笔记之requests库练习:Python爬虫练习(一)练习:Python爬虫练习(五)scrapy库笔记:Python爬虫笔记之scrapy库练习:Python爬虫练习(二)selenium库笔记:Pyhon爬虫笔记之selenium库练习:Python爬虫练习(三)练习:Python爬虫练习(四)问题记录:使用selenium更改cookie失败数据查找BeautifulSoup库笔记:Python爬虫笔记之Be原创 2021-02-25 14:15:09 · 185 阅读 · 0 评论 -
Python爬虫练习(六)
文章目录前言一、代码1、引入库2、进入视频列表3、进入视频4、播放5、等待与关闭6、自动播放7、输入信息二、效果总结前言使用selenium库连续播放视频。一、代码1、引入库from selenium import webdriverimport timeimport sys2、进入视频列表def part(): try: time.sleep(5) part=driver.find_elements_by_css_selector('l.原创 2021-07-12 18:46:50 · 105 阅读 · 0 评论 -
Python爬虫练习(五)
文章目录前言代码引入库定义线程类开始线程进度条选择请求头发起请求查找列表获取列表查找元素写入文件主函数执行排序结果总结前言对Python爬虫练习(一)作出改进,增加了多线程,使用re代替BeautifulSoup查找,提高爬取速度,改进了进度条,及时捕获异常,防止中途换行。代码引入库import requestsfrom bs4 import BeautifulSoupimport reimport threading #线程import queue #队列import time..原创 2021-02-24 22:35:50 · 215 阅读 · 0 评论 -
Python爬虫练习(四)
文章目录前言引入库等待函数使用cookie登录使用密码登录写入cookie提交体温主程序总结前言对[Python爬虫练习(三)](https://editor.csdn.net/md/?articleId=113815158)做出改进,将强制等待改为显示等待,增加了cookie的读取和写入,跳过登录界面。引入库from selenium import webdriver#显示等待from selenium.webdriver.support.wait import WebDriver..原创 2021-02-23 18:59:19 · 175 阅读 · 0 评论 -
Python爬虫笔记之css、xpath查找
文章目录前言操作符查找总结前言记录使用css查找元素的基本方法。操作符*:所有元素.xxx:class为xxx的元素#xxx:id为xxx的元素E:所有E标签E,F:所有E,F标签E F:E的所有F后代E>F:所有E中的F标签E+F:E之后的所有FE[att1=’…’][att2=’…’]:属性为…的E标签^=:以…开头,$=:以…结尾,*=:包含…E:contains(‘xxx’):内容包含xxx的E元素查找css("<查询条件>::<..原创 2021-02-23 00:08:04 · 437 阅读 · 0 评论 -
Python爬虫笔记之re查找
文章目录前言操作符查找方法match对象使用总结前言记录利用re查找元素的常用方法。操作符. :任意单个字符*:前一字符扩展0到∞次+:前一字符扩展1到∞次?:前一字符扩展0或1次{m}:前一字符扩展m次{m,n}:前一字符扩展m到n次^:在开头$:在结尾\d:[0-9]\w:[A-Z a-z 0-9][ ] :字符集( ):分组|:左右任一个[^]:非字符集实例:^[a-z A-z]+$ 由字母组成^[0-9]+$ 由数字组成^-?\d+$ 整数..原创 2021-02-22 17:48:29 · 1020 阅读 · 0 评论 -
Python爬虫笔记之BeautifulSoup查找
文章目录前言安装解析元素遍历查找使用总结前言记录使用BeautifulSoup查找元素的常用方法。安装pip install beautifulsoup4解析from bs4 import BeautifulSoupsoup=BeautifulSoup(r.text,"html.parse")#print(soup.prettify()) #格式化输出元素soup.<tag> #标签soup.<tag>.name #标签名soup.<tag&..原创 2021-02-22 11:46:24 · 836 阅读 · 0 评论 -
Pyhon爬虫笔记之selenium库
文章目录前言一、配置环境二、基本使用三、HTML等待总结前言记录selenium的基础使用方法。一、配置环境安装selenium库pip install selenium下载Chrome浏览器和对应版本的驱动程序,将chromedrive.exe复制到Python的scripts目录下。二、基本使用控制浏览器from selenium import webdriverdriver=webdriver.Chrom() #创建浏览器driver.get(url) ..原创 2021-02-21 21:47:30 · 110 阅读 · 1 评论 -
Python爬虫笔记之scrapy库
文章目录前言一、scrapy库安装二、scrapy爬虫框架三、命令行操作总结前言记录一些scrapy库的基本用法。一、scrapy库安装pip install scrapy二、scrapy爬虫框架engine:不需修改,控制数据流,触发事件。downloader:提交请求,返回内容。schedule:调度功能。downloader middleline:实施可配置的控制。spiders:解析响应,产生额外请求。item piplines:以流水线方式处理spider产生..原创 2021-02-21 16:45:43 · 427 阅读 · 0 评论 -
Python爬虫笔记之requests库
文章目录前言一、requests库安装二、get方法三、Response对象四、通用代码框架五、多线程总结前言记录一些requests库常用内容一、requests库安装pip install requests二、get方法r=requests.get(url,**kwargs) 提交向服务器请求资源的Request对象,返回包含服务器资源的Response对象。kwargs常用参数:headers:字典类型,可用来模拟浏览器,在F12的网络中查找,使用r.request.he..原创 2021-02-20 22:24:04 · 179 阅读 · 0 评论 -
使用selenium更改cookie失败
问题描述:使用selenium更改cookie失败,代码如下:url='xxx'driver=webdriver.Chrome()driver.get(url)time.sleep(7)driver.delete_all_cookies()for cookie in cookies: driver.add_cookie(cookie) print("更改内容:",cookie)driver.refresh()time.sleep(7)print("更改后内容:",dri原创 2021-02-20 00:02:07 · 771 阅读 · 0 评论 -
Python爬虫练习(三)
文章目录前言一、隐藏cmd黑框二、代码1、引入库2、登录3、选择日期4、选择人员5、提交体温6、主程序总结前言使用selenium库模拟鼠标点击和键盘输入完成体温上报。一、隐藏cmd黑框打开phython所在文件夹\Lib\site-packages\selenium\webdriver\common\service.py。在start函数中的subprocess.Popen中添加参数creationflags = 134217728二、代码1、引入库from selenium..原创 2021-02-15 13:17:53 · 179 阅读 · 1 评论 -
Python爬虫练习(二)
文章目录前言一、修改items.py添加属性总结前言使用scrapy框架爬取宝可梦列表,使用xpath,re,css查找对应宝可梦的属性和分类提示:以下是本篇文章正文内容,下面案例可供参考一、修改items.py添加属性e_default_https_context = ssl._create_unverified_cont总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数..原创 2021-02-14 13:20:14 · 351 阅读 · 1 评论 -
Python爬虫练习(一)
在这里插入代码片提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言代码1.引入库总结前言使用requests库爬取宝可梦列表,并查找对应的属性和分类代码1.引入库import requestsfrom bs4 import BeautifulSoupimport reimport timeimport randomimport sys总结提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而panda原创 2021-02-07 22:49:41 · 600 阅读 · 0 评论