爬虫
文章平均质量分 80
Wangziv_hahaha
这个作者很懒,什么都没留下…
展开
-
3.跟我一起学爬虫——正则表达式
、、原创 2021-04-11 16:43:58 · 293 阅读 · 2 评论 -
2.跟我一起学爬虫——urllib库的使用
urllib库包含4个模块:request:模拟发送请求。像在浏览器里输入网址然后回车一样,只需要给库传入URL以及额外的参数,就可以模拟实现这个过程了。error:异常处理模块。parse:一个工具模块,提供许多URL处理办法,比如:拆分、解析、合并等。robotparser:识别网站的robots.txt文件,判断哪些网站可以爬,哪些不可以爬。...原创 2021-04-15 16:01:37 · 488 阅读 · 0 评论 -
1.跟我一起学爬虫——网页基础
网页由三大部分组成——HTML、CSS、JavaScript。HTML相当于人的骨架,JavaScript相当于人的肌肉,CSS相当于人的皮肤。1.HTMLHTML是描述网页的一种语言,全称Hyper Text Markup Language,即超文本标记语言。网页包括文字、图片、按钮、视频等各种复杂的元素,其基础架构就是HTML。不同类型的元素用不同的标签来表示,如图片–img,视频–video,段落–p,它们之间的布局通过布局标签嵌套组合,也就是各种标签通过不同的嵌套组合才形成了网页的框架。2.C原创 2021-03-17 22:24:10 · 168 阅读 · 2 评论