![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
明目先生
这个作者很懒,什么都没留下…
展开
-
python爬虫(四)——scrapy 屠龙勇士必备好刀
scrapy是一个框架scrapy结构认识原创 2020-12-29 20:53:10 · 122 阅读 · 0 评论 -
python爬虫(三)——re正则表达式库
可以适当翻阅菜鸟教程一 正则表达式的组成正则表达式一般由字符与操作符组成,其中操作符是我们记忆的重点看到这里学过linux的小伙伴估计就明白了,啊这。。。bash shell似乎也是使用上述表达式完成赋值等操作的耶。简单示例实际案例如何匹配网络上的IP地址呢?将数字分段表示就ok啦~所谓难事只不过是简单事情组装起来的东西而已二 与re库的第一次相遇ok,了解了正则表达式这个概念之后,疑问来了——如何在python里面表示一个正则表达式呢?或者说我们怎么告诉python编原创 2020-12-29 20:36:23 · 198 阅读 · 1 评论 -
python爬虫(二 )实例——beautiful soup爬取大学排名
学完技术是时候该磨磨刀了原创 2020-12-21 19:58:27 · 271 阅读 · 0 评论 -
python爬虫(一)——request的碎碎念
前言request适合小型爬虫中等请参照scrapy一个开发工具。。。。。埋个坑先request官网基础知识不bb,导库import requests网站限制爬虫都在robots文件里了显式限制隐式限制爬取网站会读你的user-agent看你是浏览器还是其它的什么妖魔鬼怪~爬取代码查看user-agent信息。修改request的user-agent信息其中Mozilla是标准浏览器的意思,代表绝大多数浏览器,当然你可以写一些单一的浏览器例如chrome/5.0原创 2020-12-16 17:33:21 · 128 阅读 · 1 评论 -
python爬虫(二)——beautiful soup成为五星大厨之路
第三方库其之二——beautiful soup 美丽汤不要问我这个名字为什么这么怪。。。。你见过夫妻肺片是需要牺牲一对夫妻么。。。。。。beautiful soup用于分析爬取到的页面信息!!!终于不用那么low的只是爬上爬下了!好耶.jpg官网地址使用bs可以解析文件例如下面是解析html文件结果就是会产生标准的html文件其他格式标签tag属性获取标签属性值string属性html内容迭代遍历先来看看html基本结构...原创 2020-12-21 18:16:02 · 205 阅读 · 2 评论