- 博客(7)
- 收藏
- 关注
原创 Python爬虫学习(打卡day6)
今天爬了3个网站,复习了re,bs4,xpath这3中数据解析方式,更多的理解了页面源代码中的一些信息。
2024-04-25 00:40:48 367 1
原创 Python爬虫学习(打卡day5)
XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。今天学习了xpath解析网页,学习了如何写xpath表达式,使用xpath成功爬取了猪八戒网站上的信息。
2024-04-24 00:29:18 854
原创 Python爬虫学习(打卡day4)
bs4 全名,是编写 python 爬虫常用库之一,BeautifulSoup4也是一个html/xml的解析器,主要用来解析 html 标签。1. id选择器 #id值2. 标签选择器 标签3. 类选择器 .4. 选择器分组 ,5. 后代选择器 空格6. 子选择器 父 > 子7. 属性选择器 [属性=值]CSS 选择器 - CSS:层叠样式表 | MDN (mozilla.org)
2024-04-23 00:52:24 758
原创 Python爬虫学习(day3打卡)
Regular Expression, 正则表达式, 一种使用表达式的方式对字符串进行匹配的语法规则.说人话就是通过写一串表达式的方式从文本中拿到你想要的内容。对应爬虫中的应用就是从页面源代码中提取我们想要的数据。在线测试正则表达式在线正则表达式测试今天学习了正则表达式,通过正则表达式对网页进行解析拿到数据。练习爬笔趣阁的小说加深了对正则表达式的理解。参考文章一文搞懂正则表达式 - 知乎 (zhihu.com)正则表达式学习笔记(超级详细!!!)| 有用的小知识_1\d{2}-CSDN博客。
2024-04-22 00:49:48 930
原创 Python爬虫学习(打卡day2)
今天了解了Web请求的全过程,学习了浏览器的使用,了解了HTTP协议,并且通过对学习到了内容进行了实践,成功爬取了b站评论到本地。一次完整的HTTP请求过程 - 知乎 (zhihu.com)Web请求全过程剖析_web 请求组成-CSDN博客深入理解HTTP协议 - 知乎 (zhihu.com)F12 - 开发者工具详解 - 知乎 (zhihu.com)
2024-04-20 23:47:07 1284
原创 Python爬虫学习(打卡day1)
我的理解:爬虫就是通过程序来模拟浏览器请求,帮助我们拿到我们在浏览器上能看到的东西今天复习了python的基本语法,几种重要的数据类型,文件操作,字符集和模块等知识,了解了什么是爬虫,并开始写了第一个入门级爬虫。(收获满满,明天也要加油呀!
2024-04-20 00:29:18 1299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人