
Python爬虫
Eastmount
北理本硕,武大博士。欢迎加入“网络攻防和AI安全之家”和“数智人文与文本挖掘”知识星球!自幼受贵州大山的熏陶,养成了诚实质朴的性格。经过寒窗苦读,考入BIT,为完成自己的教师梦,放弃IT、航天等工作,成为贵州高校的一名教师,并想把自己所学所感真心传授给自己的学生,帮助更多陌生人。已发表论文30余篇,撰写专著8部,主持课题6项,感恩遇到的每一位读者,且看且珍惜。
贵州纵美路迢迢,为负劳心此一遭。收得破书三四本,也堪将去教尔曹。娜美人生,醉美生活。他和她经历风雨,慢慢变老。
展开
-
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。原创 2015-07-21 17:04:36 · 13265 阅读 · 0 评论 -
[python学习] 简单爬取图片网站图库中图片
最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_75,简单来说文章就两句话:如何分析源代码通过正则表达式提取指定URL;如何通过Python下载图片。原创 2015-03-20 17:01:14 · 19788 阅读 · 3 评论 -
[python学习] 模仿浏览器下载CSDN源文并实现PDF格式备份
最近突然想给自己的博客备份下,看了两个软件:一个是CSDN博客导出软件,好像现在不能使用了;一个是豆约翰博客备份专家,感觉都太慢,而且不灵活,想单独下一篇文章就比较费时。而且我的毕业论文是基于Python自然语言相关的,所以想结合前面的文章用Python实现简单的功能:1.通过网络下载本体的博客,包括图片,通过写消息头模拟登录实现下载CSDN文章;2.在通过Python把HTML转换成PDF格式,利用xhtml2pdf和PISA尝试失败,希望文章对你有所帮助。原创 2015-05-17 02:52:30 · 9163 阅读 · 2 评论 -
[Python爬虫] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要介绍了如何手动爬取新浪播客和CSDN博客的思想和方法.如果有错误或不足之处,请海涵!原创 2014-10-04 16:33:43 · 19641 阅读 · 20 评论 -
[python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要分为五部分,共五篇文章,文章比较基础,希望对您有所帮助,如果文章中存在错误或不足之处。 1.Python爬取招聘信息,并且存储到MySQL数据库中; 2.调用pyinstaller包将py文件打包成exe可执行文件; 3.设置Windows系统的计划,制作定时任务原创 2017-04-24 00:07:01 · 9247 阅读 · 4 评论 -
[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机。整个系列主要分为五部分,共五篇文章: 1.Python爬取招聘信息,并且存储到MySQL数据库中; 2.调用pyinstaller包将py文件打包成exe可执行文件; 3.设置Windows系统的计划,制作定时任务,每天早上定时执行exe爬虫; 4.结合PHP(因原创 2017-04-22 16:03:54 · 12485 阅读 · 18 评论 -
[python爬虫] Selenium爬取内容并存储至MySQL数据库
前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium爬取我的个人博客信息,然后存储在数据库MySQL中,以便对数据进行分析,比如分析哪个时间段发表的博客多、结合WordCloud分析文章的主题、文章阅读量排名等。 这是一篇基础性的文章,希望对您有所帮助,如果文章中出现错误或不足之处,还请海涵。下一篇文章会简单讲解数据分析的过程。原创 2017-03-13 13:05:39 · 26603 阅读 · 8 评论 -
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象。同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习。 总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~原创 2016-12-30 00:19:54 · 22802 阅读 · 19 评论 -
[python爬虫] Selenium高级篇之窗口移动、弹出对话框自登录
在我们使用Selenium Python制作自动爬虫和网页自动测试的时候,通常会遇到弹出新的窗体或对话框的时候,此时你捕获的窗体已经被打断,从而干扰你的爬虫。那怎么解决这个问题呢?本篇文章主要记录两段代码解决这类问题: 第一个是click()函数点击超链接后,需要捕获弹出新窗体的信息,此时需要调用switch_to_window()函数切换窗体,再捕获新的数据; 第二个是click()函数点击超链接后,弹出登录的对话框,比如百度首页登录,此时需要调用switch_to_alert()函数原创 2017-08-10 23:14:59 · 34196 阅读 · 6 评论 -
[python爬虫] 正则表达式使用技巧及爬取个人博客实例
这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站。希望这篇基础文章对您有所帮助,如果文章中存在错误或不足之处,还请海涵。真的太忙了,太长时间没有写博客了,抱歉~一.正则表达式 二.正则表达式抓取网络数据常见方法 1.抓取标签间的内容 2.抓取标签中的参数 三.实战原创 2017-10-18 18:15:59 · 44682 阅读 · 45 评论 -
[python爬虫] BeautifulSoup爬取+CSV存储贵州农产品数据
《勿忘心安》勿要把酒倚寒窗,庭院枯叶已飞霜。忘怀之前坎坷路,劝君一醉付流光。心中愁苦漫翻滚,雪上寒鸦入画堂。安知我辈庸庸过,双鬓飞白亦疏狂。很喜欢这首诗,也享受在公交车上备课的日子,心很静很安,更享受和期待新装修的新家,人生漫漫,还是带着一丝微笑和她前行。接下来再忙还是挤点时间看看分布式爬虫和深度学习,十月这个节点终于结束啦。学生的笔记不错,有我的风范,大家也很认真。Remember you are born to live. Don’t live because you are born! D原创 2017-10-29 23:29:31 · 14044 阅读 · 4 评论 -
[Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地
前面 "Python爬虫之Selenium+Phantomjs+CasperJS" 介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更为广泛使用的Python爬虫框架是——Scrapy爬虫。这篇文章是一篇基础文章,主要内容包括: 1.Scrapy爬...原创 2018-02-10 23:53:59 · 12083 阅读 · 5 评论 -
[python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示“当前访问疑似黑客攻击,已被网站管理员设置为拦截”提示,如下图所示。此时我们需要采用设置Cookie来进行爬取,下面我们进行详细介绍。非常感谢我的学生承峰提供的思想,后浪推前浪啊!一. 网站分析与爬虫拦截当我们打开蚂蚁短租搜索贵阳市,反馈如下图所示结果。网址为:http://www.mayi....原创 2018-03-07 18:59:57 · 13778 阅读 · 3 评论 -
[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱
前面作者写了很多Python系列文章,包括:Python基础知识系列:Python基础知识学习与提升Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJSPython数据分析系列:知识图谱、web数据挖掘及NLP 接下来作者将学习并讲解一些Python小应用,它将结合Python爬虫、数据分析、web开发或其他功能进行介绍。一方面希望能提升读者的Pyt...原创 2018-05-03 15:28:27 · 10199 阅读 · 3 评论 -
[python爬虫] selenium爬取局部动态刷新网站(URL始终固定)
在爬取网站过程中,通常会遇到局部动态刷新情况,当你点击“下一页”或某一页时,它的数据就进行刷新,但其顶部的URL始终不变。这种局部动态刷新的网站,怎么爬取数据呢?某网站数据显示如下图所示,当点击“第五页”之时,其URL始终不变,传统的网站爬取方法是无法拼接这类链接的,所以本篇文章主要解决这个问题。本文主要采用Selenium爬取局部动态刷新的网站,获取“下一页”按钮实现自动点击跳转,再依次爬取每一...原创 2018-04-26 11:18:25 · 32047 阅读 · 13 评论 -
[python爬虫] Selenium切换窗口句柄及调用Chrome浏览器
因为我的博客是根据我每个阶段自己做的事情而写的,所以前言可能有点跑题,但它更有利于让我回忆这个阶段自己的所作所为。这篇文章主要介绍Selenium爬虫获取当前窗口句柄、切换窗口句柄以及调用Chrome浏览器几个知识点,其中获取当前句柄的方法是非常重要的一个知识点,只有真正遇到的时候才能体会到它的强大。我爬虫主要使用Selenium、BeautifulSoup和Scrapy,其中Selenium能够结合浏览器解决登录验证码、扫二维码、效果预览、自动测试等问题;BeautifulSoup的优势是速度,两种方法都原创 2016-11-21 04:36:27 · 23890 阅读 · 7 评论 -
[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍
在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是取决于更抽象的结构;网页结构中很小的改动可能会导致程序的中断。所以下面介绍Beautiful Soup库爬取网页知识的基本用法及安装。原创 2015-03-25 17:50:05 · 25066 阅读 · 1 评论 -
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~原创 2015-08-21 17:57:43 · 33127 阅读 · 15 评论 -
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium、PhantomJS的基础知识及安装过程,这篇文章是一篇应用。通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是通过JavaScript动态加载的,故通过Phantomjs模拟浏览器加载获取。 希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~原创 2015-08-24 02:28:26 · 17889 阅读 · 5 评论 -
[Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文档,包括:网页截图、页面加载、代码运算、DOM操作、网络请求及响应等,希望对你有所帮助~原创 2015-08-19 04:38:21 · 24342 阅读 · 10 评论 -
[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。纪伯伦曾说过:“你无法同时拥有青春和关于青春的知识;因为青春忙于生计,没有余暇去求知;而知识忙于寻求自我,无法享受生活。”同样现在找工作的我,无法在拥有扎实基础知识的同时又兼顾深度的项目理解,但我更倾向于分享知识,因为它就是寻求自我,就是原创 2015-10-01 22:46:37 · 21949 阅读 · 4 评论 -
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点:1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之,希望文章对你有所帮助。如果作者又不足原创 2015-10-02 09:47:38 · 15606 阅读 · 4 评论 -
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。最后希望读到此文的朋友,能收获一些东西,谢谢~原创 2015-10-25 03:00:47 · 14516 阅读 · 8 评论 -
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固Selenium自动化操作和urllib库等知识,感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~一.引入Selenium自动爬取百度图片 二.简单分析原因及巩固知识 三.解决方法原创 2015-12-07 06:25:10 · 33009 阅读 · 6 评论 -
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更为广泛使用的Python爬虫框架是——Scrapy爬虫。这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章。包括安装过程及入门的爬取腾讯招聘信息流程及结果,希望文章对你有所帮助~原创 2015-11-08 04:22:10 · 14449 阅读 · 4 评论 -
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧!虽然文章内容很简单,但是对于初学者或者刚接触爬虫的同学来说,还是有一定帮助的。原创 2015-12-06 03:42:55 · 18760 阅读 · 4 评论 -
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析。涉及内容如下:常用正则表达式爬取网页信息及HTML分析总结 1.获取<t...原创 2016-04-07 06:13:37 · 121667 阅读 · 36 评论 -
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~原创 2015-08-19 20:04:34 · 36244 阅读 · 4 评论 -
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~一.定位元素方法 二.操作元素方法 四.原创 2016-07-10 13:10:10 · 106732 阅读 · 6 评论 -
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~原创 2015-09-06 02:11:57 · 21998 阅读 · 35 评论 -
[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图
该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~原创 2015-08-20 16:02:25 · 27595 阅读 · 11 评论