![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 83
gh0stf1re
这个作者很懒,什么都没留下…
展开
-
抓取猫眼电影排行-基于Beautiful Soup
前言前面利用正则表达式爬取猫眼电影top100,这两天刚学了Beautiful Soup,今天用它来写一遍。还不熟悉Beautiful Soup的同志,可以看看我的前一篇博客:python3 网络爬虫开发实战-使用Beautiful Soup获取第一页import requestsfrom requests.exceptions import RequestExceptiondef get_one_page(url): ''' 获取第一个的响应 ''' try:原创 2021-01-07 22:31:49 · 287 阅读 · 0 评论 -
python3 网络爬虫开发实战-使用Beautiful Soup
前言前面介绍了正则表达式的相关用法,但是一旦正则表达式写得有问题,得到的可能就不是我们想要的结果。对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class来区分,所以也可以借助它们的结构和属性来进行提取。这一节介绍Beautiful Soup,它借助网页的结构和属性等特性来解析网页Beautiful Soup的安装pip3 install beautifulsoup4解析器Beautiful Soup 在解析时实际上依赖于解析器。因为lxml解析器有解析HTML原创 2021-01-07 13:26:35 · 141 阅读 · 0 评论 -
python3网络爬虫开发实战-抓取猫眼电影排行(正则表达式版)
抓取猫眼电影排行目前没有学习HTML解析库,这里先选用正则表达式作为解析工具目标提取出猫眼电影top100的电影名称、时间、评分、图片等信息。提取的站点URL为http://maoyan.com/board/4,提取的结果以文件形式保存下来。抓取分析首页显示的是top10,点击下面的 [第二页],URL变成了 http://maoyan.com/board/4?offset=10,这时显示的是排行11-20名的电影。当我们分开请求10次,offset参数分别设置为0、10、20…90,获取不同页面原创 2021-01-06 13:55:30 · 1083 阅读 · 0 评论 -
python3中的yield
前言在学习Python3 网络爬虫实战,爬取猫眼top100时,作者的代码中用到了yield,而python编程从入门到实践没有说到迭代器和生成器,只好自己百度学习了。迭代器迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。迭代器有两个基本的方法:iter() 和 next()。字符串,列表或元组对象都可用于创建迭代器这是菜鸟编程中对于python3原创 2021-01-06 10:54:23 · 196 阅读 · 0 评论 -
python3 网络爬虫开发实战-正则表达式
3.3正则表达式match()match() 方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None。示例:import recontent = 'Hello 123 4567 World_This is a Regex Demo'print(len(content))result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)print(result)print(result.gro原创 2021-01-04 15:47:45 · 176 阅读 · 0 评论 -
python3 网络爬虫开发实战-requests库
3.2使用requestsrequests库的安装pip install requests各种请求使用requests 的示例r = requests.get('https://httpbin.org/get')r = requests.post('https://httpbin.org/post')r = requests.put('https://httpbin.org/put')r = requests.delete('https://httpbin.org/delete')r =原创 2021-01-03 23:30:26 · 188 阅读 · 0 评论