爬虫
文章平均质量分 64
露葵025
但知行好事,莫要问前程
展开
-
bs4解析案例实战——爬取三国演义小说所有章节标题和章节内容
目标爬取三国演义小说所有章节标题和章节内容网址:https://www.shicimingju.com/book/sanguoyanyi.html思路先使用通用爬虫爬取当前页面解析页面当中提供的所有页面标题获取标题所对应内容的详情页的链接地址将详情页中的章节内容提取出来对首页页面数据进行爬取import requestsurl = 'https://www.shicimingju.com/book/sanguoyanyi.html'page_text = requests.get(ur原创 2021-01-10 15:25:21 · 2110 阅读 · 3 评论 -
使用Requests爬取网页图片并保存
目标爬取糗事百科上的“热图”的图片并保存在一个新建文件夹当中过程一、获得当前网页使用的是requests爬虫,在使用requests库爬取网页中有介绍。import requestsr = requests.get('https://www.qiushibaike.com/imgrank/')#获取网页链接rtext = r.text#rtext #打开用来查看是否获取成功二、解析网页并提取图片这里使用正则表达式,在正则表达式中有介绍。首先,我们浏览器打开要爬取的网页,审查元素原创 2021-01-02 17:56:13 · 8052 阅读 · 1 评论 -
Scrapy框架(学习笔记)
Scrapy框架介绍功能强大的网络爬虫框架不是一个简单的函数功能库,而是一个爬虫框架爬虫框架:是实现爬虫功能的一个软件 结构 和功能组件集合,一个半成品,能够根据用户需求帮助用户快速实现专业网络爬虫,约束了一个使用模板。七个部分(5+2结构)SPIDERSITEM PIPELINES ENGINE DOWNLOADER原创 2020-12-27 15:25:01 · 312 阅读 · 2 评论 -
正则表达式(学习笔记)
正则表达式 简介regular expression ,regex,RE正则表达式是用来简洁表达一组字符串的表达式。优势:简洁例如:‘py’ ‘pyy’ ‘pyyy’ ‘pyyyy’ … ‘pyyyy…’ ----> py+‘py’开头,后续存在不多于10个字符,后续字符不能是‘p’或‘y’ -----> py[^py]{0,10}通用字符串表达框架简洁表达一组字符串的表达式针对字符串表达“简洁”和“特征”思想的工具用来判断某字符串的特征归属应用:表达文本类原创 2020-12-26 12:18:45 · 479 阅读 · 0 评论 -
使用Requests库爬取网页(超简单)
Requests库简介Requests库是python的第三方库,目前公认的Requests库的安装以管理员身份运行cmd输入 pip install requests我这里之前已经装好了来看看requests库有没有安装成功打开python(可直接在命令行输入python)import requests# 导库r = requests.get("http://www.baidu.com") #获取百度的首页r.status_code #查看状态码,表示网页已经获取成原创 2020-12-22 16:49:12 · 9966 阅读 · 1 评论 -
Beautiful Soup库的使用(学习笔记)
Beautiful Soup库的简介BeautifulSoup库是解析、遍历、维护“标签树”的功能库。可以说BeautifulSoup类对应一个HTML/XML文档的全部内容。Beautiful Soup库安装只需运行:pip install beautifulsoup4小测试:1.先用爬虫爬下来一个网页:import requestsr = requests.get("http://python123.io/ws/demo.html")r.text2. 将网页的内容作为参数传给d原创 2020-12-23 15:50:23 · 563 阅读 · 0 评论