爬虫
文章平均质量分 64
HHYZBC
一个小白,如果有文字有错误,请大佬指出!!!
展开
-
字体反扒
以实习僧网站为例,在网页是看数据都是正常的,而查看源代码,则可以发现有部分数据是乱码,这个就是字体反扒了。原创 2022-08-07 11:17:16 · 390 阅读 · 0 评论 -
csv模块
csv模块实现以CSV格式读取和写入表格数据的类。该模块是python的内置模块,使用时直接引用即可。原创 2022-08-06 11:24:37 · 355 阅读 · 0 评论 -
xlwings模块(数据保存为xlsx文件)
xlwings是一个可以实现从Excel调用Python,也可在python中调用Excel的库。开源免费,一直在更新。文档链接:xlwings 文档。原创 2022-08-06 10:46:44 · 1966 阅读 · 0 评论 -
selenium模块
需要注意的是,使用该方法后跳转到frame标签内容后,是无法获取frame标签外的元素的,需要获取当前标签页的句柄,然后切换到该句柄才可以获取frame标签外的元素。隐式等待是全局性的,即运行过程中,如果元素可以定位到,它不会影响代码运行,但如果定位不到,则它会以轮询的方式不断地访问元素直到元素被找到,若超过指定时间,则抛出异常。需要注意的是,在使用selenium打开浏览器前,需要下载相对应的浏览器驱动才能使用,下载教程网上有很多,这里就不过多介绍了。delete_cookie("需要删除的名字")...原创 2022-07-29 13:41:57 · 1547 阅读 · 0 评论 -
数据提取jsonpath模块
作用是提取json中的数据,提取json中的数据需要用到该模块下的jsonpath方法obj表示需要提取数据的对象,expr表示jsonpath语法规则字符串原创 2022-07-08 16:07:19 · 324 阅读 · 0 评论 -
伪装请求头库: anti-useragent
下载方法:使用方法:导入UserAgent实例化对象 获取请求头并且该模块支持对请求头信息的自定义:默认为 windows原创 2022-06-25 11:58:10 · 513 阅读 · 0 评论 -
python爬虫报错UnicodeEncodeError: ‘gbk‘ codec can‘t encode character (转)
(1条消息) Python爬虫踩坑:UnicodeEncodeError: ‘gbk‘ codec can‘t encode character 全网最有效解的决方法_Nire_谒羽的博客-CSDN博客https://blog.csdn.net/Nire_Yeyu/article/details/124514717原创 2022-06-24 14:04:02 · 244 阅读 · 0 评论 -
lxml模块(数据提取)
lxml 是 Python 的第三方解析库,在第一次使用前需要使用到下面命令进行下载lxml使用流程lxml模块中提供了一个etree 模块,该模块专门用于解析HTML/XML 文档 初始化解析对象HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。parse_html只是一个变量名,后续的调用xpath表达式都是在此对象的基础上完成的。xpath方法会将符合xpath表达式的结果以列表的形式返回。常用的路径表达式常用原创 2022-06-24 10:30:58 · 745 阅读 · 0 评论 -
请求模块(requests)
requests模块是python中常用的发送请求模块,作用是发送http请求,获取响应数据。使用前需要使用pip进行下载。使用requests 使用requests发送get请求 发送带有参数的get请求传入一个字典作为params参数即可实例请求的url则为: 发送需要传入HTTP Header的get请求传入一个字段作为headers参数即可 发送json数据的get请求:传入一个字典作为json参数即可 发送文件的get请求原创 2022-06-24 09:56:39 · 262 阅读 · 0 评论 -
网络爬虫
目录爬虫是什么爬虫的作用爬虫的分类爬虫的流程爬虫又可以叫做网页蜘蛛,网页机器人。可以模拟客户端,发送网页请求,接收请求响应。是一种按照一定的规则,自动的抓取互联网信息的程序。根据是否以获取数据为目的,可以分为:功能性爬虫数据增量爬虫根据url地址何对应的页面内容是否改变,数据增量爬虫可以分为:基于url地址变化,内容也会随之变化的数据增量爬虫新数据url地址不变,内容变化的数据增量爬虫数据部分变化获取一个url向url发送请求,并获取响应(需要http协议)如果从响应中提取url,则继续发送请求获取响应如果原创 2022-06-21 09:14:04 · 117 阅读 · 0 评论 -
CSS语法
CSS是什么全称为Cascading Style Sheets,又叫层叠样式表单,简称为样式表,是用于(增强)控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。样式就是格式,在网页中,像文字的大小、颜色以及图片位置等,都是设置显示内容的样式。层叠是指当在HTML文档中引用多个定义样式的样式文件(CSS文件)时,若多个样式文件间所定义的样式发生冲突,将依据层次顺序处理。如果不考虑样式的优先级时,一般会遵循“最近优选原则”。CSS代码命名规范以下命名规范只是建议,不遵守并不会报错,但是最好原创 2022-04-08 14:49:16 · 1097 阅读 · 0 评论 -
HTML语言
什么是HTML全名为HyperText Mark-up Language,又叫超文本标记语言。超文本可理解为超越文本限制,如图片、视频、音频、超链接等内容,而超链接则是世界各地的网页链接,标记可理解为标签,在HTML中标签可分为双标签(闭合标签)和单标签(空表示)。整个连起来则可以理解为HTML是一种使用标签制作出超文本的语言(个人理解,可以有误)。学习HTML语言,即是学习标签的用法,常用标签20多种,标签不区分大小写,使用小写即可HTML的作用用来开放网页的,是开放网页的语言网页文本的后原创 2022-04-06 16:51:08 · 527 阅读 · 0 评论 -
网络编程基础
ip指互联网协议地址,又译为网际协议地址。IP地址是Ip协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。简单说就是设备在网络上的地址。...原创 2022-04-02 14:27:50 · 1745 阅读 · 0 评论 -
HTTP协议相关知识
HTTP协议是什么HTTP协议是超文本传输协议的缩写,英文是Hyper Text Transfer Protocol。它是从WEB服务器传输超文本标记语言(HTML)到本地浏览器的传送协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。HTPP有多个版本,目前广泛使用的是HTTP/1.1版本。传输HTTP协议格式的数据是基于TCP传输协议的,发送数据之前需要先建立连接什么是超文本字面意思是超越文本限制或者超链接,如:图片、音乐、视频、超链接等,可以传递任意类型的数原创 2022-04-04 18:25:27 · 2575 阅读 · 0 评论 -
请求头和响应头
目录请求请求方法两者区别其他请求方式请求报文请求行请求头请求体响应响应行响应状态码响应头响应体请求请求,由客户端向服务端发出,可以分为3部分内容:请求方法(Request Method) 、请求的网址( Request URL )、请求报文(Request message)请求方法常见的请求方法有两种:GET和POST。在浏览器中直接输入 URL 并回车,这便发起了一个 GET 请求,请求的原创 2022-04-20 15:54:26 · 11306 阅读 · 0 评论