python爬虫开发笔记
文章平均质量分 73
木灬U6770
这个作者很懒,什么都没留下…
展开
-
python爬虫开发:从入门到实战学习笔记(三)简单的网页爬虫开发
一、Python的第三方库 requests网页有很多种打开方式,最常见的是GET方式和POST方式。在浏览器里面可以直接通过输入网址访问的页面,就是使用了GET方式。还有一些页面,只能通过从另一个页面单击某个链接或者某个按钮以后跳过来,不能直接通过在浏览器输入网址访问,这种网页就是使用了POST方式。1、GET方式html_str = requests.get('网址').content.decode('编码格式')编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB1原创 2021-08-04 17:38:15 · 276 阅读 · 0 评论 -
python爬虫开发:从入门到实战学习笔记(二)正则表达式与文件操作
(1)正则表达式的基本符号。(2)如何在Python中使用正则表达式。(3)正则表达式的提取技巧。(4)Python读写文本文件和CSV文件。1、正则表达式在一万个人里面找一个人很困难,但是在一万个人里面找一个非常“有特点”的人却很容易。假设有一个人,皮肤是绿色的,身高三米,那么即使这个人混在一万人中,其他人也能一眼找到他。这个“寻找”的过程,在正则表达式中叫作“匹配”。使用正则表达式有如下步骤。(1)寻找规律。(2)使用正则符号表示规律。(3)提取信息。 1...原创 2021-08-01 17:08:04 · 570 阅读 · 0 评论 -
python爬虫开发:从入门到实战学习笔记(一)python基础
第一章 爬虫这是一个数据爆炸的时代,没有了获取数据信息的壁垒,只要你肯,只要你想,那么就有机会利用数据让梦想走进现实。但是面对互联网这样一个由数据构建而成的海洋,如何有效获取数据,如何获取有效数据都是极其劳神费力、浪费成本、制约效率的事情。酒店提前几天订最便宜?机票什么时候订最实惠?你知道酒店的价格一周都怎样变化吗?刷了那么久的票,你总结出了什么规律吗?那如果有人告诉你,他每15min就可以监控这个城市所有酒店的价格,你相信吗?你会疑惑吧,谁会有闲心每15min把某个城市所有酒店所有房间的价格全部看一原创 2021-08-01 16:00:38 · 207 阅读 · 0 评论