python爬虫
文章平均质量分 94
学习python爬虫的一些基础和一些爬取一些简单网站
小田爱犯困.
答案在时间里 自由在风里
展开
-
python爬虫
例如,尊重网站的隐私政策和robots.txt文件,遵守网站的爬取规则,不要对目标网站造成过大的访问压力等。我们要清楚一个事情. 我们平时在打开一个网址的时候. 如果长时间没有反应, 或者加载很慢的时候. 我们习惯性的会刷新网页. 对吧. 这个逻辑就像: `程序如果本次请求失败了. 能不能重新来一次`. OK, 我们接下来聊的这个异常处理. 就是干这个事儿的.s1 = replace(" ", "").replace("\t", "").replace("\n", "") # 干掉空格, \t, \n。原创 2024-03-12 22:23:10 · 1957 阅读 · 0 评论 -
简单认识HTML和CSS
HTML(超文本标记语言)是一种用于创建网页的标准标记语言。它由一系列的标签组成,这些标签用于定义网页的结构、样式和内容。HTML标签包括开标签和闭标签,它们之间用于包裹网页中的内容。TML定义了文本、图像、链接、表格等元素的语义标签,这些标签描述了元素的含义和作用,使得浏览器能够正确地解释和渲染网页。同时,HTML也支持添加样式和脚本,使得网页更加丰富和交互。WEB前端:HTML+CSS+JavaScriptHTML:结构标准,超文本标记语言,负责通过标签来表达网页的页面结构。原创 2024-03-13 20:15:06 · 861 阅读 · 0 评论 -
数据解析正则re
导入正则import re**概述:** **正则表达式**,又称规则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern)正则匹配是一个 模糊的匹配(不是精确匹配)**re:**python自1.5版本开始增加了re模块,该模块提供了perl风格的正则表达式模式,re模块是python语言拥有了所有正则表达式的功能- 如下四个方法经常使用- match()- search()2.正则基础及表达式。原创 2024-03-14 23:02:29 · 1441 阅读 · 1 评论 -
数据分析xpath
安装lxml库pip可以百度搜一下。xpath了解。原创 2024-03-15 17:14:56 · 1024 阅读 · 0 评论 -
requests
作用:发送网络请求,返回响应数据。原创 2024-03-16 23:59:22 · 1173 阅读 · 1 评论 -
Cookie
1. response.cookies是CookieJar类型2. 使用requests.utils.dict_from_cookiejar,能够实现把cookiejar对象转化为字典。原创 2024-03-18 20:09:48 · 1350 阅读 · 0 评论 -
高效率编程之多进程
1万字的详情和代码!什么是进程?是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。对于操作系统一个任务就是一个进程。比方说打开浏览器就是启动一个浏览器的进程,在打开一个记事本就启动一个记事本进程,如果打开两个记事本就启动两个记事本进程。原创 2024-03-20 23:29:11 · 1145 阅读 · 1 评论