python
文章平均质量分 61
易小侠
可订制毕业设计。
免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者或出版方,资料版权归原作者或出版方所有,本人不对所涉及的版权问题或内容负法律责任。如有侵权,请举报或通知本人删除。
展开
-
史上最全,万字吃透python正则匹配,让你在网络爬虫中自由翱翔
正则表达式是用于处理字符串的强大工 具,拥有自己独特的语法以及一个独立的处理弓擎,效率上可能不如 str 自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的部分。如果巳经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了。就个人而言, 主要用它来做一些复杂字符串分析,提取想要的信息,学习原则:够用就行,需要的时候在深入!原创 2022-01-15 17:26:28 · 2142 阅读 · 1 评论 -
python爬虫基本概述
python爬虫基本概述一、爬虫是什么二、爬虫可以做什么三、爬虫的分类四、爬虫的基本流程一、爬虫是什么 网络爬虫(Crawler)又称网络蜘蛛,或者网络机器人(Robots). 它是一种按照一定的规则, 自动地抓取万维网信息的程序或者脚本。换句话来说,它可以根据网页的链接地址自动获取网页 内容。如果把互联网比做一个大蜘蛛网,它里面有许许多多的网页,网络蜘蛛可以获取所有网页 的内容。 爬虫是一个模拟人类请求网站行为, 并批量下载网站资源的一种程序或自动...原创 2021-09-11 19:38:03 · 3756 阅读 · 0 评论 -
熬夜爆肝整理的近2万字——python爬虫基础之HTTP协议
一、 HTTP 简介 HTTP协议是HyperTextTransfer Protocol (超文本传输协议)的缩写, 是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。 HTTP 是一个基于TCP/IP 通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。 HTTP 是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990 年提出,经过几年的使用与发展,得...原创 2021-09-12 17:05:17 · 876 阅读 · 0 评论 -
python爬虫之Chrome 浏览器开发者工具
一、Chrome 浏览器开发者工具简述1.1 什么是浏览器开发者工具 其实简单的说,浏览器开发者工具就是给专业的web 应用和网站开发人员使用的工具,它的作用在于,帮助开发人员对网页进行布局,比如HTML+CSS,帮助前端工程师更好的调试脚本(JavaScript、jQuery)之类的,还可以使用工具查看网页加载过程,获取网页请求(这个过程也叫做抓包),抓包是非常有意思的过程,而每一个浏览器厂商生产出来的浏览器都会有自己的杀手锏,也就是功能上的差别,那么这个时候你就找一个最适合自己...原创 2021-09-12 15:57:13 · 2207 阅读 · 0 评论 -
python爬虫与反爬虫
一、爬虫与反爬虫 1. 爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。 2. 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 3. 误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。 4. 拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。 5. 资源:机器成本与人力成本的总和。二、爬虫的攻...原创 2021-09-11 19:57:53 · 1606 阅读 · 0 评论 -
Python 爬虫相关库
一、请求库1、urllib3 库 提供很多Python 标准库里所没有的重要特性:线程安全,连接池,客户端SSL/TLS验证,文件分部编码上传,协助处理重复请求和HTTP 重定位,支持压缩编码,支持HTTP 和SOCKS 代理,100% 测试覆盖率2、urllib 库 Python 内置的HTTP 请求库,提供一系列用于操作URL 的功能3、requests 库 基于urllib,采用Apache2 Licensed 开源协议的HTTP 库4、seleniu...原创 2021-09-12 14:43:25 · 6736 阅读 · 0 评论 -
❤️2万字带你走进python爬虫requests库,史上最全!!❤️
4.1 requests 库简介 Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库,比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求,无需手动为 URL 添加查询字串, 也不需要对 POST 数据进行表单编码。相对于 urllib3 库,requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能。requests 库包含的特性如下。 ❖ 1Keep-Alive原创 2021-10-23 23:25:30 · 3987 阅读 · 4 评论 -
python爬虫的合法性与robots 协议
一、robots 协议 robots 协议也称作爬虫协议、机器人协议,它的全名叫作网络爬虫排除标准(Robots Exclusion Protocol ),当使用一个爬虫爬取一个网站的数据时,需要遵守网站所有者针对所有爬虫所制定的协议! 简单说就是是一种存放于网站根目录下的ASCII 编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。robots.txt 的样例User-agent: *Dis...原创 2021-09-12 14:35:59 · 2331 阅读 · 0 评论 -
基于python英文文件名批量翻译并重命名
下载了一些英文PDF文章,想把它们翻译一下文件名,并且以英文名_翻译中文重命名。调用百度翻译api,在百度翻译开放平台注册通用翻译API-标准版,是免费的。http://fanyi-api.baidu.com/api/trans/product/desktop申请时服务器,我填了个本机的ip,会报错58000 客户端IP非法 检查个人资料里填写的 IP地址 是否正确,可前往管理控制平台修改 我修改成空后,demo就不报错了,所以服务器地址最好不填。申请好后,拉倒网址页面最原创 2021-12-30 16:13:05 · 3382 阅读 · 0 评论 -
网页爬虫内容正则匹配记录。
如图html.text=name=re.findall(r'font-size:20px;\">([\s\S]*?)<div id=\"result\">',html.text)print(name)结果:name2=re.findall(r'\n(\s*)(.*?)(\s*)</div>',name[0])print(name2)print(name2[0][1])结果:原创 2021-12-21 13:59:28 · 2132 阅读 · 0 评论 -
python保存文件名,line 257, in urlretrieve tfp = open(filename, ‘wb‘)OSError: [Errno 22] Invalid argument:
一、问题描述import urllib.requestfilename = '文件名*文件名/文件名.zip'urllib.request.urlretrieve( "https://www.......com//1234.zip",filename)python爬虫下载文件,并保存文件名,报错 urllib.request.urlretrieve( "https://www.......com","文件名*文件名/文件名.zip") File "C:\Users\lenovo原创 2021-11-19 17:31:50 · 1372 阅读 · 0 评论 -
raise ContentTooShortError(urllib.error.ContentTooShortError: <urlopen error retrieval incomplete:
一、问题描述爬虫批量下载出现以下错误 raise ContentTooShortError(urllib.error.ContentTooShortError: <urlopen error retrieval incomplete: got only 0 out of 290758 bytes>二、问题原因问题原因:urlretrieve下载不完整三、解决方案1、解决方案一在这篇博客中:http://blog.csdn.net/Innovation_Z/arti原创 2021-11-19 16:19:09 · 3632 阅读 · 0 评论 -
raise HTTPError(req.full_url, code, msg, hdrs, fp)urllib.error.HTTPError: HTTP Error 404: Not Found
import requestsurl=['www....','www.....',...]for i in range(0,len(url)): linkhtml = requests.get(url[i])爬虫报了以下错误: File "C:\Users\lenovo7\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 247, in urlretrieve with context...原创 2021-11-19 16:11:32 · 4190 阅读 · 0 评论 -
python3+selenium4自动化测试——控制已打开的浏览器
在使用selenium进行自动化测试中我们有时会遇到这样的情况: 我们需要手动打开浏览器,进入到所需的页面,执行一些手动任务,如输入表单、输入验证码,登陆成功后,然后再开始运行自动化脚本。这种情况下如何使用selenium来接管先前已打开的浏览器呢?这里给出Google Chrome浏览器的解决方案。我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。右键打开chrome所在位置在此打开cmd,在命令行中输入命令:chrome.e...原创 2021-11-18 16:42:03 · 1869 阅读 · 0 评论 -
python批量修改图片大小/分辨率,不改变图片中文名。
#-*- coding:UTF-8 -*-import cv2import osimport reimport numpy as npfrom glob import globdir = "./111/" //修改图片大小后存放新图片的地址video_path = "./1/" //原始图片地址frames = glob(os.path.join(video_path, '*.jpg'))for i, frame in enumerate(frames): patter.原创 2021-10-13 09:12:06 · 652 阅读 · 0 评论 -
❤️国庆假期快到了,用python写个倒计时程序,助你熬到假期!❤️
国庆假期快到了,想查查还有几天几小时到假期,这对程序员小菜一碟,轻轻松松用python写个倒计时程序(天、时、分、秒),助你熬到假期!一、先看效果:二、安装python:1、下载安装python下载安装python3.9.6,进入python官方网站://www.python.org/点击Python 3.9.6直接安装即可。2、验证安装成功。按win+R输入cmd,打开控制台,输入python -V,输出python版本号说明安装成功。...原创 2021-09-28 08:30:00 · 3932 阅读 · 16 评论 -
七夕快到了,用python给女朋友画张素描吧
一、先看效果:二、安装python3.92,pycharm编辑器PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下 PyCharm 在 Windows下是如何安装的。这是 PyCharm 的下载地址:http://www.jetbrains.com/pycharm/download/#section=windows进入该网站后,我们会看到如下界面:professional 表示专业.原创 2021-08-07 20:01:34 · 57003 阅读 · 110 评论 -
python教你写游戏超级玛丽,可运行有代码
一、先看效果:二、安装python3.92,pycharm编辑器PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下 PyCharm 在 Windows下是如何安装的。这是 PyCharm 的下载地址:http://www.jetbrains.com/pycharm/download/#section=windows进入该网站后,我们会看到如下界面:professional 表示专业版,.原创 2021-08-06 23:11:44 · 8060 阅读 · 3 评论 -
python教你写游戏雷霆战机,可运行有代码
一、先看效果:二、安装python3.92,pycharm编辑器PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下 PyCharm 在 Windows下是如何安装的。这是 PyCharm 的下载地址:http://www.jetbrains.com/pycharm/download/#section=windows进入该网站后,我们会看到如下界面:professional 表示专业...原创 2021-08-06 22:47:48 · 1586 阅读 · 0 评论 -
python写的连连看小程序,教你怎么运行
先看效果PyCharm 2021.1 x64打开工程文件;File——Settings——Python Interpreter把组件都下载好,然后点run就可以运行啦!原创 2021-08-05 23:51:25 · 617 阅读 · 0 评论 -
python写的学生管理系统,可运行
运行 main.py 即可启动项目。项目中保留了所有的布局页面,保留的登录的逻辑代码。其余的逻辑代码函数里面的细节全部删除,只要将具体逻辑补充完毕即可使用。按shift,右键打开PowerShelllogin.py片段import tkinter as tkimport tkinter.messageboxfrom main import MainPage# 标准开发代码class LoginPage: """登录界面""" def __init__..原创 2021-08-05 22:48:59 · 2553 阅读 · 3 评论 -
csv文件超过104万数据怎么办
csv文件超过104万数据怎么办?一、notepad++打开文件,按Ctrl+G定位行然后按Ctrl+shift+home就能选择到第一行了然后按Ctrl+shift+End就能选择到最后一行二、pythonimport csvdata = []with open("目标文件.csv", "r")as csvfile: dd = csv.reader(csvfile) for item in dd: if data.line_num=10原创 2021-05-07 01:06:45 · 5015 阅读 · 0 评论