![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 58
云晓-
数据治理,数据分析,相信自己,终有所成。坚持学习!
展开
-
稳扎稳打学爬虫09—chromedriver下载与安装方法
chromedriver下载与安装方法原创 2023-07-07 11:28:51 · 9964 阅读 · 4 评论 -
爬虫小案例06—使用Beautiful Soup获取小说内容
import requestsfrom bs4 import BeautifulSoupdef get_chapterLink(url): '''获取该篇小说的所有章节url''' headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' } .原创 2022-03-27 14:06:35 · 677 阅读 · 0 评论 -
爬虫小案例05—使用Xpath解析网站
使用Xpath解析网页内容原创 2022-02-28 22:00:21 · 474 阅读 · 3 评论 -
爬虫小案例04—使用Beautiful Soup批量获取图片
图片下载方式原创 2022-02-26 14:45:38 · 3264 阅读 · 3 评论 -
爬虫小案例03—获取影片名称以及下载地址
具有详细步骤的完整博文一直审核无法通过,详细代码见资源需求:影片名称以及对应的下载地址探索:需要获取的名称由主页面确定,需要的内容位于另一个页面(子页面)方案:1、首先获取热片列表2、获取子页面链接3、获取子页面内容(源代码)4、解析子页面代码,获取所需要的内容...原创 2022-02-06 15:07:07 · 294 阅读 · 0 评论 -
爬虫小案例02—使用re模块爬取排行榜信息,one page
使用python中的re模块,爬取第一页的排行榜数据原创 2022-02-04 23:35:51 · 1110 阅读 · 0 评论 -
爬虫小练习01—获取网站源码
爬虫小练习原创 2022-01-09 19:18:23 · 2448 阅读 · 0 评论 -
稳扎稳打学爬虫08—Selenium的使用方法详解
selenium使用方法详解原创 2022-06-13 01:05:41 · 313 阅读 · 0 评论 -
稳扎稳打学爬虫07—Xpath的使用方法详解
1. 定义与使用逻辑1.1 定义XPath 是一门在 XML 文档中查找信息、搜索内容的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。其中,html 是xml 的一个子集。1.2 逻辑一般按照以下顺序 #1、导入模块 from lxml import etree #2、将HTML文件解析成 Xpath对象 html= etree.HTML(text) #3、调用Xpath解析对象的xpath 方法, 对内容进行解析2. 使用2.1 下载原创 2022-02-27 11:32:13 · 1061 阅读 · 0 评论 -
稳扎稳打学爬虫06—Beautiful Soup详解及一个小例子
BeautifulSoup详解find_all与find的使用利用标签名进行定位原创 2022-01-16 23:33:25 · 1603 阅读 · 0 评论 -
稳扎稳打学爬虫05—python中re模块的使用
原创 2022-02-03 22:32:53 · 664 阅读 · 0 评论 -
稳扎稳打学爬虫04—正则表达式详解
1、简介正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。是一种使用表达式的方式对字符串进行匹配的语法规则。2、语法使用元字符进行排列组合用来匹配字符串3、在线测试3.1 oschinahttps://tool.oschina.net/regex3.2 菜鸟编程https://c.runoob.com/front-end/854/4、元字符元字符:具有固定含义的特殊字符常用元字符:符号原创 2022-01-22 15:44:01 · 344 阅读 · 0 评论 -
稳扎稳打学爬虫03—HTTP状态码
常见HTTP状态码(HTTP Status Code):HTTP 响应状态代码指示特定 HTTP 请求是否已成功完成。响应分为五类:信息响应(100–199),成功响应(200–299),重定向(300–399),客户端错误(400–499)和服务器错误 (500–599)。200 - 请求成功301 - 资源(网页等)被永久转移到其它URL404 - 请求的资源(网页等)不存在500 - 内部服务器错误HTTP 响应代码官网https://developer.mozilla.org/zh-CN原创 2021-12-30 23:25:10 · 249 阅读 · 0 评论 -
稳扎稳打学爬虫02—HTTP协议
http原理分类http :保证准确高效的传输 超文本文档https :以安全为目标的超文本传输协议,http的基础上增加ssl层。构建一个信息安全通道,保证数据的传输安全 等。构成请求向服务器发送请求使用的urlURL 统一资源定位符,也就是我们常说的网址。 用来定位访问资源的字符串,通过url 我们知道去哪里访问数据、如何访问url构成格式: 协议://host[:port]/path/…/[?query-string]协议:访问协议如 http https ftphost:服务器的原创 2021-12-29 23:42:41 · 526 阅读 · 0 评论 -
稳扎稳打学爬虫01—爬虫基本知识
1 什么是爬⾍⽹络爬⾍也叫做⽹络机器⼈,可以代替⼈们⾃动的在互联⽹中进⾏数据信息的采集与整理。2 爬⾍的作⽤使⽤⽹络爬⾍对数据信息进⾏⾃动采集,⽐如应⽤于搜索引擎中对站点进⾏爬取收录,应⽤于数据分析与挖掘中对数据进⾏采集,应⽤于⾦融分析中对⾦融数据进⾏采集,除此之外,还可以将⽹络爬⾍应⽤于舆情监测与分析、⽬标客户数据的收集等各个领域。3 爬⾍的分类3.1 通⽤爬⾍通⽤⽹络爬⾍ 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部 分。主要⽬的是将互联⽹上的⽹⻚下载到本地,形原创 2021-12-28 23:30:41 · 452 阅读 · 0 评论