python
文章平均质量分 63
爱写bug的疼老师
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用网络爬虫备份某论坛历史数据
前一阵子铁血网站关闭了,姥爷是铁血十多年的老用户,就委托我帮他把历史文章导出。导出后是这个样子。点开txt文件,我们能发现,图片以链接的形式存在文本文档中。因为用了十多年,文字和图片的量真的不小。如何把这些图片也全部保存下来?这正好是爬虫的用武之地。总体思路如下:1.遍历文件夹中所有的txt文件。2.对每个txt进行读取,利用正则表达式,提取其中的图片网址url,加入到列表中。3.遍历列表中的url,进行保存代码如下所示:import osimport reimp.原创 2022-02-07 10:05:33 · 479 阅读 · 0 评论 -
利用Python爬虫抓取小说网站全部文章
我们先来选定爬取目标,我爬取的网站是https://www.17k.com/,一些大型的网站(如起点、豆瓣等)做了反爬虫的部署,这会大大增加我们抓取的难度,所以尽量还是选一些不那么热门的网站。爬虫的第一步,也是最重要的一步,就是分析网页的结构,定位到我们想要抓取的内容。首先点开一本书的某一章节,这里以小说《第九特区》的第一章《初来乍到》为例展开(https://www.17k.com/chapter/3038645/38755562.html),分析某一章的页面内容结构。首先来看标题,这个非常.原创 2020-11-26 15:44:10 · 4781 阅读 · 1 评论 -
Python解决回文串问题——分别用循环和切片实现
问题描述:回文联,它是我国对联中的一种。用回文形式写成的对联,既可顺读,也可倒读。不仅它的意思不变,而且颇具趣味。是我国的重要文化之一。有趣的回文联有 斗鸡山上山鸡斗 天连水尾水连天 鱼傍水活水傍鱼等。写代码,输入字符串s,判断s是否是回文联。常规方法:我们先来用最通常的方法来解决这道题,即借助循环:先比较字符串的第一个字符和最后一个字符,如果相等,则比较第二个字符和...原创 2020-03-26 09:49:30 · 1181 阅读 · 0 评论 -
python抓取zol付费壁纸
代码仅限技术交流,禁止任何商业用途学习了Jack-Cui的爬虫文章,颇有收获。拿http://desk.zol.com.cn/来练练手。点开第一张壁纸:可以发现,有的壁纸是要付费下载的。今天我们就利用爬虫,批量获取这些壁纸。用到的两个重要库 selenium 和BeautifulSoup,对库不熟悉的,建议看http://blog.csdn.net/c406495762/article/detai...原创 2018-02-08 16:58:13 · 1004 阅读 · 0 评论 -
正则表达式分析email地址——Python实现
首先分析emali地址的规则,以bill.gates@microsoft.com为例,可以将一个email地址分为三部分。第一部分是bill.gate,它的规则可以描述为正数个字母、数字和.的组成。第二部分为固定字符@.第三部分以microsoft.com为例,它的规则可以描述为正数个字母数字+.com。明确了规则,正则表达式可以如下所示r'^[\d\w\.]+@[\d\w]+\.com...原创 2019-07-22 15:04:29 · 851 阅读 · 0 评论 -
水仙花数的三种解决方法(Python实现)
先来了解一下什么是水仙花数。水仙花数是这样一个三位数:它的个位数、十位数、百位数的三次方之和,等于它自身。例如,153就是一个水仙花数,因为153=1^3+5^3+3^3。470也是一个水仙花数,因为470=4^3+7^3+0^3。我们今天的任务就是,编程求100到999之间所有的水仙花数。那么这个题目的关键就是,给定一个三位数abc,如何获得它的个位数c,十位数b,百位数a?我们先来...原创 2019-09-26 17:54:19 · 16673 阅读 · 1 评论
分享