python爬虫
文章平均质量分 72
菜鸟果果~
这个作者很懒,什么都没留下…
展开
-
6.获取环球时报关键词新闻--动态网页Ajax
一、背景前段时间写了个爬虫获取新浪的新闻,但新浪新闻页面文档页格式不统一,新闻质量也较差,经过筛选,环球时报上面的新闻质量稍好,且页面格式比较统一。二、实例解析1.思路我们这里主要获取环球时报上面的国际新闻国际性新闻URL:https://world.huanqiu.com/爬取新闻的三步法:解析主页上面的新闻链接---->解析每个新闻链接里面的内容---->格式化文本写入文档2.新闻链接解析常规套路,打开主页,检查元素,找到一个新闻的元素位置容易发现上图中,“多米原创 2021-03-06 21:25:57 · 1177 阅读 · 0 评论 -
五、爬虫学习--分页爬取关键词新闻
一、背景疫情期间,每天需要搜集新冠肺炎相关新闻,编写了一个python脚本用户爬取新浪网相关新闻二、实例解析模块:requests、BeautifulSoup、reurl:https://search.sina.com.cn/?q=新冠&c=news&sort=time1.初始化定义一个GetNews类,在__init__中写入初始化参数class GetNews: def __init__(self,keyword,name): self.he原创 2021-03-01 19:23:08 · 994 阅读 · 0 评论 -
二-python爬虫学习-下载小说
一、准备工作1.背景介绍小说网站:新笔趣阁2.爬虫步骤大致分三个步骤:发起请求:明确如何发起Http请求,获取到数据;解析数据:获取到杂乱的数据,对数据进行清理;保存数据:保存为自己想要的格式。发起请求就用requests解析数据有xpath、Beautiful Soup、正则表达式等,本文用BeautifulSoup保存数据:用常规的文本保存,后续继续用docx和xlsx保存3.Beautiful Souppip install bs4官方中文教程4.小试牛刀下载《斗破原创 2021-02-23 09:42:12 · 212 阅读 · 0 评论 -
四-python爬虫学习--下载电视剧
一、背景视频下载的套路基本同图片下载一样,甚至更简单。本文通过代码实现下载电视剧《赘婿》:https://www.okzyw.net/?m=vod-detail-id-71448.html思路:搜索---->解析---->下载。1.搜索F12检查元素,打开网络选项卡,搜索《赘婿》,可以发现向服务器POST了关键词‘赘婿’继续查看搜索结果,搜索结果保存在html的赘婿更新至14集中编写get_url()获取电视剧的urlimport requestsfrom bs4原创 2021-02-23 09:37:57 · 2227 阅读 · 1 评论 -
三、python爬虫学习--动态下载网站漫画
一、项目背景动漫之家漫画下载二、漫画下载下载《欢乐懒朋友》url:https://www.dmzj.com/info/huanlelanpengyou.html目标:保存所有章节的图片到本地1.获取章节名和链接名import requestsfrom bs4 import BeautifulSouptarget='https://www.dmzj.com/info/huanlelanpengyou.html'req=requests.get(target)html=req.text原创 2021-02-22 11:38:17 · 476 阅读 · 0 评论 -
一、python爬虫学习--爬虫基本概念
一、什么是爬虫网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。例如:https://www.baidu.comURL 专业一些的叫法是统一资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):protocol ????/ hostname[:port] / path / [;parameters][?query]#fragmentURL 的格式主要由前个原创 2021-02-22 10:21:55 · 296 阅读 · 0 评论