爬虫
文章平均质量分 69
dongfuguo
这个作者很懒,什么都没留下…
展开
-
Python批量下载网易云音乐飙升榜所有音乐文件
推荐教材:《Python程序设计基础与应用》(ISBN:9787111606178),董付国,机械工业出版社,2018.8出版,2021.3第11次印刷作者荣誉:机械工业出版社计算机分社成立20周年本科教材”金牌作者“,机械工业出版社高等教育教材专家咨询委员会委员,机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员,全国高等院校计算机基础教育研究会教育信息化专业委员会委员,山东省一流本科课程“Python应用开发”负责人,山东省高等教育优秀教材作者,清华大学出版社3本畅销教材作者,智慧原创 2021-05-01 23:24:03 · 616 阅读 · 0 评论 -
Python使用socket读取网页源代码实现简单爬虫程序
功能描述:创建套接字,向目标网站HTTP端口80或HTTPS端口443发送请求,获取指定网页的源代码,实现一个简单的网络爬虫程序。参考代码:运行结果:温馨提示关注本公众号“Python小屋”,通过菜单“最新资源”==>“历史文章”可以快速查看分专题的1000篇原创技术文章列表(可根据关键字在页面上搜索感兴趣的文章),通过“最新资源”==>“微课专区”可以免费观看500节Python微课,通过“最新资源”==>“培训动态”可以查看近期Python...原创 2020-05-28 08:14:47 · 923 阅读 · 1 评论 -
Python使用爬虫技术获取本机所在公网IP地址
图书推荐:《Python程序设计基础与应用》(ISBN:9787111606178),董付国,机械工业出版社图书详情:用书教师可以联系董老师获取教学大纲、课件、源码、教案、考试系统等配套教学资源。==============功能描述:获取自己计算机所在公网IP地址。技术路线:网络上有些网页,访问这些网页时会显示我们的公网IP地址。利用爬虫技术,编写Pyth...原创 2020-05-01 08:05:22 · 961 阅读 · 0 评论 -
Python 3.8实现支持断点续传的网络文件下载功能
功能描述:下载URL指定的网络文件,支持断点续传。代码支持Python 3.5/3.6/3.7/3.8以及更新的版本。所谓断点续传,是指因为各种原因下载过程被中断之后,再次下载时会继续之前的工作,避免重复下载浪费时间。参考代码:以spark官方下载地址为例,220M的文件。运行结果:...原创 2020-03-12 18:31:35 · 926 阅读 · 1 评论 -
Python爬虫辅助库BeautifulSoup4用法精要
BeautifulSoup是一个非常优秀的Python扩展库,可以用来从HTML或XML文件中提取我们感兴趣的数据,并且允许指定使用不同的解析器。由于beautifulsoup3已经不再继续维护,因此新的项目中应使用beautifulsoup4,目前最新版本是4.5.0,可以使用pip install beautifulsoup4直接进行安装,安装之后应使用from bs4 import Beau原创 2016-12-29 22:34:57 · 2506 阅读 · 0 评论 -
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
大宗师是著名网络小说作家蛇从革的系列作品“宜昌鬼事”之一,在天涯论坛具有超级高的访问量。这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读者阅读。如果在天涯社区直接阅读的话,会被很多读者留言干扰,如图于是,我写了下面的代码,从天涯社区该小说的第一篇开始依次爬取每一页,提取作者“蛇从革”发过的文字并保存成为记事本文档。当然,代码还可以再优化一下,原创 2016-12-31 22:09:32 · 3462 阅读 · 0 评论 -
使用Python批量爬取并下载具有防盗链保护的文件
对抗简单反爬设置,批量下载具有防盗链保护的文件。阅读原文原创 2019-06-03 17:32:33 · 845 阅读 · 0 评论