科男小林-CSDN博客

原创 Python爬虫学习（打卡day6）

今天爬了3个网站，复习了re，bs4，xpath这3中数据解析方式，更多的理解了页面源代码中的一些信息。

2024-04-25 00:40:48 367 1

原创 Python爬虫学习（打卡day5）

XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。今天学习了xpath解析网页，学习了如何写xpath表达式，使用xpath成功爬取了猪八戒网站上的信息。

2024-04-24 00:29:18 854

原创 Python爬虫学习（打卡day4）

bs4 全名，是编写 python 爬虫常用库之一，BeautifulSoup4也是一个html/xml的解析器，主要用来解析 html 标签。1. id选择器 #id值2. 标签选择器标签3. 类选择器 .4. 选择器分组 ,5. 后代选择器空格6. 子选择器父 > 子7. 属性选择器 [属性=值]CSS 选择器 - CSS：层叠样式表 | MDN (mozilla.org)

2024-04-23 00:52:24 758

Regular Expression, 正则表达式, 一种使用表达式的方式对字符串进行匹配的语法规则.说人话就是通过写一串表达式的方式从文本中拿到你想要的内容。对应爬虫中的应用就是从页面源代码中提取我们想要的数据。在线测试正则表达式在线正则表达式测试今天学习了正则表达式，通过正则表达式对网页进行解析拿到数据。练习爬笔趣阁的小说加深了对正则表达式的理解。参考文章一文搞懂正则表达式 - 知乎 (zhihu.com)正则表达式学习笔记（超级详细！！！）| 有用的小知识_1\d{2}-CSDN博客。

2024-04-22 00:49:48 930

原创 Python爬虫学习（打卡day2）

今天了解了Web请求的全过程，学习了浏览器的使用，了解了HTTP协议，并且通过对学习到了内容进行了实践，成功爬取了b站评论到本地。一次完整的HTTP请求过程 - 知乎 (zhihu.com)Web请求全过程剖析_web 请求组成-CSDN博客深入理解HTTP协议 - 知乎 (zhihu.com)F12 - 开发者工具详解 - 知乎 (zhihu.com)

2024-04-20 23:47:07 1284

原创 Python爬虫学习（打卡day1）

我的理解：爬虫就是通过程序来模拟浏览器请求，帮助我们拿到我们在浏览器上能看到的东西今天复习了python的基本语法，几种重要的数据类型，文件操作，字符集和模块等知识，了解了什么是爬虫，并开始写了第一个入门级爬虫。（收获满满，明天也要加油呀！

2024-04-20 00:29:18 1299

原创 c#中抽象类的使用

对c#抽象类的一些理解

2022-06-18 01:07:19 3168 2

TPLNKOYXL的博客