爬虫
文章平均质量分 71
Seasons in the snow
技术宅
展开
-
爬取建标库规范全文到本地word(selenium+python-docx+tesseract实现)
自从上次发过一篇爬取建标库规范信息的文章后,后台有很多小伙伴留言问我,爬信息太简单了,他想要的是规范正文内容,能不能爬呢。最近刚好闲下来,抽空看了一下,爬正文似乎不是那么简单,不过你大爷还是你大爷,方法总比问题多,今天就给大家带来爬取建标库规范全文到本地word,通过selenium+python-docx+tesseract实现。原创 2022-05-20 17:48:54 · 1627 阅读 · 2 评论 -
tesseract破解css反爬抓取自如租房信息
引言作为一个刚毕业两年的打工人,在深圳这种房价压死人的城市,买房是不可能买房了,只能寄希望于租到一个便宜又舒适的房子。今天给大家带来的案例是tesseract破解css反爬抓取自如租房信息,将好房源尽收囊中。一、分析页面1、进入自如租房网站(url链接:https://sz.ziroom.com/z/p1/),打开页面,如图所示,城市选择深圳,可以看到,有很多租房信息,包括:房源名称、面积/层数、地理位置、价格,其中价格是比较重要的数据。2、我们点击到第2页,可以看到网址变成了:https:/原创 2021-05-31 15:49:27 · 283 阅读 · 0 评论 -
python爬取建标库规范信息并保存到本地
1. 引言作为一只土木狗,从进入大学的那一天起就开始和各种各样的规范打交道,不管是混凝土、钢结构、砌体结构规范,还是抗震、基础、荷载、高层规范,可以这么说,整个大学基本就是在学各个规范的原理性知识。工作以后,但凡是从事规划、设计、施工等工作更是离不开这些规范。今天给大家带来一个案例,用python爬取建标库网站的规范信息,并保存到本地,下面跟随我一起来实践吧。2. 分析页面进入建标库网站,我们找到“国家规范>建筑专业”版块,url链接(http://www.jianbiaoku.com/we原创 2021-04-16 16:11:28 · 3999 阅读 · 4 评论 -
Python爬取全书网小说全文——正则表达式的应用
1. 引言各位读者新年好,今天给大家带来的案例是爬取全书网小说全文,主要用到了正则表达式。我们知道,正则表达式一般用来进行格式化的精确匹配,用来爬取多文本的内容非常方便。本次采用面向过程的方法,理解起来较为简单。2. 代码实现过程首先进入全书网(网址:https://www.xs4.cc/),随便选一篇小说,比如这个《我在古代日本当剑豪》这一偏小说。点进去之后可以看到已经更新到352章了。接下来就是正式爬取的过程了,总共分为五个步骤:1 获取小说列表页面源代码2 获取每章的URL3 获原创 2021-03-30 11:49:23 · 1964 阅读 · 0 评论 -
Python爬取新东方在线网站大学英语六级词汇
文章目录引言分析页面代码实现引言大学英语六级几乎是每个大学生必过的考试,不管是读研还是找工作,很多都有这方面的要求,而六级词汇是其中重要的一环。今天给大家带来一个案例,用python爬取新东方在线网站的大学英语六级大纲词汇,并保存到本地,下面跟随我一起来实践吧。分析页面url链接:https://cet6.koolearn.com/20181225/825301.html,打开页面,如图所示:我们需要2019年6月大学英语六级大纲词汇带音标:A—Z,由于每个字母开头的词汇位于不同的链接,因此原创 2021-03-24 11:27:50 · 1036 阅读 · 0 评论