
Python网络爬虫
文章平均质量分 97
本文主要介绍基于Windows环境下的Python关于Phantomjs、CasperJS和 Selenium相关的爬取动态生成的信息页面如Ajax、JavaScript等知识,从最基本的安装环境到自动访问页面、表单登录、爬取JS动态信息,希望文章对你有所帮助!
Eastmount
北理本硕,武大博士。欢迎加入“网络攻防和AI安全之家”和“数智人文与文本挖掘”知识星球!自幼受贵州大山的熏陶,养成了诚实质朴的性格。经过寒窗苦读,考入BIT,为完成自己的教师梦,放弃IT、航天等工作,成为贵州高校的一名教师,并想把自己所学所感真心传授给自己的学生,帮助更多陌生人。已发表论文30余篇,撰写专著8部,主持课题6项,感恩遇到的每一位读者,且看且珍惜。
贵州纵美路迢迢,为负劳心此一遭。收得破书三四本,也堪将去教尔曹。娜美人生,醉美生活。他和她经历风雨,慢慢变老。
展开
-
[Python从零到壹] 番外篇之可视化利用D3库实现CSDN博客每日统计效果(类似github)
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍。本文属于番外篇,主要介绍Python可视化分析,利用Python采集每年发表博客的数据,再利用D3实现类似于Github的每日贡献统计,显示效果如下图所示,也是回答读者之前的疑惑。这十多年在CSDN坚持分享,也是一笔宝贵的财务啊!希望文章对您有所帮助,如果有不足之处,还请海涵。原创 2023-01-29 18:48:45 · 2678 阅读 · 2 评论 -
[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解(NLP语料构造必备技能)
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。前一篇文章讲述了Selenium基础技术,涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。本文将结合具体实例进行深入地分析,通过三个基于Selenium技术的爬虫,爬取Wikipedia、百度百科和互动百科消息盒的例子,从实际应用出发来学习利用。基础性文章,希望对您有所帮助。原创 2021-06-23 12:55:50 · 8617 阅读 · 10 评论 -
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、键盘鼠标操作)
前一篇文章讲述了数据库操作知识,包括MySQL安装、SQL语句和Python操作数据库知识,这将为后续网络爬虫存储至数据库奠定基础。本文详细介绍Selenium基础技术,涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。基础性文章,希望对您有所帮助。欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,原创 2021-05-29 16:40:02 · 24176 阅读 · 100 评论 -
[Python从零到壹] 八.数据库之MySQL和Sqlite基础知识及操作万字详解
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。前一篇文章讲述了Requests库爬取豆瓣电影TOP250,并存储至CSV文件。豆瓣TOP250是非常适合入门的案例,也能普及简单的预处理知识。这篇文章将普及数据库操作知识,这也为后续网络爬虫存储至数据库奠定基础。本文详细介绍MySQL安装、SQL语句和Python操作数据库知识,希望对您有所帮助。原创 2021-03-03 21:39:39 · 8140 阅读 · 2 评论 -
[Python从零到壹] 七.网络爬虫之Requests爬取作者个人博客网站及CSV存储
前一篇文章讲述了 BeautifulSoup 爬取豆瓣TOP250电影,通过案例的方式让大家熟悉Python网络爬虫。这篇文章将详细讲解Requests库爬取个人博客信息,并存储至CSV文件。该案例非常适合入门的案例,也能普及简单的预处理知识。 希望对您有所帮助,本文参考了作者CSDN的文章和学生杨友的博客,从学生的角度实现网络爬虫,可能对读者更友好。原创 2021-02-25 19:03:22 · 15458 阅读 · 17 评论 -
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取作者个人博客网站详解
前一篇文章讲述了BeautifulSoup技术,它是一个可以从HTML或XML文件中提取数据的Python库,一个分析HTML或XML文件的解析器,包括安装过程和基础语法。这篇文章将详细讲解 BeautifulSoup 爬取作者个人博客网站,通过案例的方式让大家熟悉Python网络爬虫,同时作者博客网站也是非常适合入门的案例,也能普及简单的预处理知识。 希望对您有所帮助原创 2021-02-17 22:20:47 · 19683 阅读 · 21 评论 -
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
欢迎大家来到“Python从零到壹”,在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解,真心想把自己近十年的编程经验分享给大家,希望对您有所帮助,文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持,知识无价人有情,希望原创 2020-11-08 20:23:07 · 13096 阅读 · 13 评论 -
Python新书上市,强烈推荐!《Python网络数据爬取及分析从入门到精通(爬取篇)》导读
Python新书上市,强烈推荐!《Python网络数据爬取及分析从入门到精通(爬取篇)》导读 内容简介本书主要包括上下两册: 《Python网络数据爬取及分析从入门到精通(爬取篇)》 《Python网络数据爬取及分析从入门到精通(分析篇)》数据爬取篇: 详细讲解了正则表达式、BeautifulSoup、Selenium、Scrapy、数据库存储...原创 2018-06-15 09:13:33 · 23496 阅读 · 40 评论 -
[python爬虫] Selenium高级篇之窗口移动、弹出对话框自登录
在我们使用Selenium Python制作自动爬虫和网页自动测试的时候,通常会遇到弹出新的窗体或对话框的时候,此时你捕获的窗体已经被打断,从而干扰你的爬虫。那怎么解决这个问题呢?本篇文章主要记录两段代码解决这类问题: 第一个是click()函数点击超链接后,需要捕获弹出新窗体的信息,此时需要调用switch_to_window()函数切换窗体,再捕获新的数据; 第二个是click()函数点击超链接后,弹出登录的对话框,比如百度首页登录,此时需要调用switch_to_alert()函数原创 2017-08-10 23:14:59 · 34315 阅读 · 6 评论 -
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。原创 2015-07-21 17:04:36 · 13326 阅读 · 0 评论 -
[python学习] 简单爬取图片网站图库中图片
最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_75,简单来说文章就两句话:如何分析源代码通过正则表达式提取指定URL;如何通过Python下载图片。原创 2015-03-20 17:01:14 · 19807 阅读 · 3 评论 -
[python学习] 模仿浏览器下载CSDN源文并实现PDF格式备份
最近突然想给自己的博客备份下,看了两个软件:一个是CSDN博客导出软件,好像现在不能使用了;一个是豆约翰博客备份专家,感觉都太慢,而且不灵活,想单独下一篇文章就比较费时。而且我的毕业论文是基于Python自然语言相关的,所以想结合前面的文章用Python实现简单的功能:1.通过网络下载本体的博客,包括图片,通过写消息头模拟登录实现下载CSDN文章;2.在通过Python把HTML转换成PDF格式,利用xhtml2pdf和PISA尝试失败,希望文章对你有所帮助。原创 2015-05-17 02:52:30 · 9169 阅读 · 2 评论 -
[Python爬虫] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面非常有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简单介绍下Python是如何爬去网络数据的,文章知识非常简单,但是也分享给大家,就当简单入门吧!同时只分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要介绍了如何手动爬取新浪播客和CSDN博客的思想和方法.如果有错误或不足之处,请海涵!原创 2014-10-04 16:33:43 · 19700 阅读 · 20 评论 -
[python爬虫] 正则表达式使用技巧及爬取个人博客实例
这篇博客是自己《数据挖掘与分析》课程讲到正则表达式爬虫的相关内容,主要简单介绍Python正则表达式爬虫,同时讲述常见的正则表达式分析方法,最后通过实例爬取作者的个人博客网站。希望这篇基础文章对您有所帮助,如果文章中存在错误或不足之处,还请海涵。真的太忙了,太长时间没有写博客了,抱歉~一.正则表达式 二.正则表达式抓取网络数据常见方法 1.抓取标签间的内容 2.抓取标签中的参数 三.实战原创 2017-10-18 18:15:59 · 44765 阅读 · 45 评论 -
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析。涉及内容如下:常用正则表达式爬取网页信息及HTML分析总结 1.获取<t...原创 2016-04-07 06:13:37 · 121854 阅读 · 36 评论 -
[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍
在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,但是上面这种分析HTML来爬取网站内容的方法存在很多弊端,譬如:正则表达式被HTML源码所约束,而不是取决于更抽象的结构;网页结构中很小的改动可能会导致程序的中断。所以下面介绍Beautiful Soup库爬取网页知识的基本用法及安装。原创 2015-03-25 17:50:05 · 25105 阅读 · 1 评论 -
[python应用案例] 一.BeautifulSoup爬取天气信息并发送至QQ邮箱
前面作者写了很多Python系列文章,包括:Python基础知识系列:Python基础知识学习与提升Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJSPython数据分析系列:知识图谱、web数据挖掘及NLP 接下来作者将学习并讲解一些Python小应用,它将结合Python爬虫、数据分析、web开发或其他功能进行介绍。一方面希望能提升读者的Pyt...原创 2018-05-03 15:28:27 · 10227 阅读 · 3 评论 -
[python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示“当前访问疑似黑客攻击,已被网站管理员设置为拦截”提示,如下图所示。此时我们需要采用设置Cookie来进行爬取,下面我们进行详细介绍。非常感谢我的学生承峰提供的思想,后浪推前浪啊!一. 网站分析与爬虫拦截当我们打开蚂蚁短租搜索贵阳市,反馈如下图所示结果。网址为:http://www.mayi....原创 2018-03-07 18:59:57 · 13830 阅读 · 3 评论 -
[python爬虫] BeautifulSoup爬取+CSV存储贵州农产品数据
《勿忘心安》勿要把酒倚寒窗,庭院枯叶已飞霜。忘怀之前坎坷路,劝君一醉付流光。心中愁苦漫翻滚,雪上寒鸦入画堂。安知我辈庸庸过,双鬓飞白亦疏狂。很喜欢这首诗,也享受在公交车上备课的日子,心很静很安,更享受和期待新装修的新家,人生漫漫,还是带着一丝微笑和她前行。接下来再忙还是挤点时间看看分布式爬虫和深度学习,十月这个节点终于结束啦。学生的笔记不错,有我的风范,大家也很认真。Remember you are born to live. Don’t live because you are born! D原创 2017-10-29 23:29:31 · 14122 阅读 · 4 评论 -
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象。同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习。 总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~原创 2016-12-30 00:19:54 · 22897 阅读 · 19 评论 -
[python爬虫] Selenium常见元素定位方法和操作的学习介绍
这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~一.定位元素方法 二.操作元素方法 四.原创 2016-07-10 13:10:10 · 106955 阅读 · 6 评论 -
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能。而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容。第一次翻译文档,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~原创 2015-08-21 17:57:43 · 33166 阅读 · 15 评论 -
[python爬虫] Selenium切换窗口句柄及调用Chrome浏览器
因为我的博客是根据我每个阶段自己做的事情而写的,所以前言可能有点跑题,但它更有利于让我回忆这个阶段自己的所作所为。这篇文章主要介绍Selenium爬虫获取当前窗口句柄、切换窗口句柄以及调用Chrome浏览器几个知识点,其中获取当前句柄的方法是非常重要的一个知识点,只有真正遇到的时候才能体会到它的强大。我爬虫主要使用Selenium、BeautifulSoup和Scrapy,其中Selenium能够结合浏览器解决登录验证码、扫二维码、效果预览、自动测试等问题;BeautifulSoup的优势是速度,两种方法都原创 2016-11-21 04:36:27 · 23938 阅读 · 7 评论 -
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记,在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容。PubMed是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要。它的数据库来源为MEDLINE(生物医学数据库),其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。最后也希望这篇文章对你有所帮助吧!虽然文章内容很简单,但是对于初学者或者刚接触爬虫的同学来说,还是有一定帮助的。原创 2015-12-06 03:42:55 · 18824 阅读 · 4 评论 -
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒
前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒,同样可以通过Spider获取网站内容,最近学习了Selenium+Phantomjs后,准备利用它们获取百度百科的旅游景点消息盒(InfoBox),这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~原创 2015-09-06 02:11:57 · 22014 阅读 · 35 评论 -
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队、CBA明星、花边新闻、球鞋美女等等,如果一张张右键另存为的话真是手都点疼了。作为程序员还是写个程序来进行吧!所以我通过Python+Selenium+正则表达式+urllib2进行海量图片爬取。最后希望读到此文的朋友,能收获一些东西,谢谢~原创 2015-10-25 03:00:47 · 14834 阅读 · 8 评论 -
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章,你能学到以下几点:1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作,里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然,最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之,希望文章对你有所帮助。如果作者又不足原创 2015-10-02 09:47:38 · 15642 阅读 · 4 评论 -
[Python爬虫] Selenium自动访问Firefox和Chrome并实现搜索截图
该篇文章主要介绍在Windows下通过Selenium+Python实现自动访问Firefox和Chrome并实现访问百度自动搜索并截图的功能。这是一个使用Selenium的简单应用,并附有详细的注释,参考官方文档,希望对你有所帮助~原创 2015-08-20 16:02:25 · 27622 阅读 · 11 评论 -
[python爬虫] Selenium爬取内容并存储至MySQL数据库
前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常,在使用Selenium爬虫爬取数据后,需要存储在TXT文本中,但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过Selenium爬取我的个人博客信息,然后存储在数据库MySQL中,以便对数据进行分析,比如分析哪个时间段发表的博客多、结合WordCloud分析文章的主题、文章阅读量排名等。 这是一篇基础性的文章,希望对您有所帮助,如果文章中出现错误或不足之处,还请海涵。下一篇文章会简单讲解数据分析的过程。原创 2017-03-13 13:05:39 · 26665 阅读 · 8 评论 -
[python爬虫] selenium爬取局部动态刷新网站(URL始终固定)
在爬取网站过程中,通常会遇到局部动态刷新情况,当你点击“下一页”或某一页时,它的数据就进行刷新,但其顶部的URL始终不变。这种局部动态刷新的网站,怎么爬取数据呢?某网站数据显示如下图所示,当点击“第五页”之时,其URL始终不变,传统的网站爬取方法是无法拼接这类链接的,所以本篇文章主要解决这个问题。本文主要采用Selenium爬取局部动态刷新的网站,获取“下一页”按钮实现自动点击跳转,再依次爬取每一...原创 2018-04-26 11:18:25 · 32153 阅读 · 13 评论 -
[CentOS Python系列] 一.阿里云服务器安装部署及第一个Python爬虫代码实现
从2014年开始,作者主要写了三个Python系列文章,分别是基础知识、网络爬虫和数据分析。Python基础知识系列:Pythonj基础知识学习与提升Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJSPython数据分析系列:知识图谱、web数据挖掘及NLP它们都是基于Windows系统下的Python编程,每个系列都从安装过程、基础知识到实际应用三...原创 2018-02-13 16:10:22 · 21885 阅读 · 6 评论 -
[CentOS Python系列] 二.pscp上传下载服务器文件及phantomjs安装详解
从2014年开始,作者主要写了三个Python系列文章,分别是基础知识、网络爬虫和数据分析。Python基础知识系列:Pythonj基础知识学习与提升Python网络爬虫系列:Python爬虫之Selenium+Phantomjs+CasperJSPython数据分析系列:知识图谱、web数据挖掘及NLP它们都是基于Windows系统下的Python编程,每个系列都从安装过程、基础知识到实际应用三...原创 2018-02-17 00:04:03 · 6838 阅读 · 0 评论 -
[python爬虫] 招聘信息定时系统 (一).BeautifulSoup爬取信息并存储MySQL
这系列文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为当前天的,同时将爬取的内容保存到数据库中,然后制作定时系统每天执行爬取,最后是Python调用相关库发送短信到手机。整个系列主要分为五部分,共五篇文章: 1.Python爬取招聘信息,并且存储到MySQL数据库中; 2.调用pyinstaller包将py文件打包成exe可执行文件; 3.设置Windows系统的计划,制作定时任务,每天早上定时执行exe爬虫; 4.结合PHP(因原创 2017-04-22 16:03:54 · 12513 阅读 · 18 评论 -
[python爬虫] 招聘信息定时系统 (二).调用pyinstaller包生成exe文件
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中;这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作。整个系列主要分为五部分,共五篇文章,文章比较基础,希望对您有所帮助,如果文章中存在错误或不足之处。 1.Python爬取招聘信息,并且存储到MySQL数据库中; 2.调用pyinstaller包将py文件打包成exe可执行文件; 3.设置Windows系统的计划,制作定时任务原创 2017-04-24 00:07:01 · 9251 阅读 · 4 评论 -
[Python Scrapy爬虫] 二.翻页爬取农产品信息并保存本地
前面 "Python爬虫之Selenium+Phantomjs+CasperJS" 介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更为广泛使用的Python爬虫框架是——Scrapy爬虫。这篇文章是一篇基础文章,主要内容包括: 1.Scrapy爬...原创 2018-02-10 23:53:59 · 12186 阅读 · 5 评论 -
[python爬虫] 爬取图片无法打开或已损坏的简单探讨
本文主要针对Python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固Selenium自动化操作和urllib库等知识,感谢朋友"露为霜"的帮助!希望以后能实现强大的图片爬虫代码~一.引入Selenium自动爬取百度图片 二.简单分析原因及巩固知识 三.解决方法原创 2015-12-07 06:25:10 · 33084 阅读 · 6 评论 -
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作。但是,更为广泛使用的Python爬虫框架是——Scrapy爬虫。这是一篇在Windows系统下介绍 Scrapy爬虫安装及入门介绍的相关文章。包括安装过程及入门的爬取腾讯招聘信息流程及结果,希望文章对你有所帮助~原创 2015-11-08 04:22:10 · 14477 阅读 · 4 评论 -
[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。纪伯伦曾说过:“你无法同时拥有青春和关于青春的知识;因为青春忙于生计,没有余暇去求知;而知识忙于寻求自我,无法享受生活。”同样现在找工作的我,无法在拥有扎实基础知识的同时又兼顾深度的项目理解,但我更倾向于分享知识,因为它就是寻求自我,就是原创 2015-10-01 22:46:37 · 21972 阅读 · 4 评论 -
[Python爬虫] Selenium+Phantomjs动态获取CSDN下载资源信息和评论
前面几篇文章介绍了Selenium、PhantomJS的基础知识及安装过程,这篇文章是一篇应用。通过Selenium调用Phantomjs获取CSDN下载资源的信息,最重要的是动态获取资源的评论,它是通过JavaScript动态加载的,故通过Phantomjs模拟浏览器加载获取。 希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~原创 2015-08-24 02:28:26 · 17903 阅读 · 5 评论 -
[Python爬虫] 在Windows下安装PIP+Phantomjs+Selenium
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话;那么动态生成的信息页面,如Ajax、JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了。所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用。基础性文章希望对你有所帮助~原创 2015-08-19 20:04:34 · 36266 阅读 · 4 评论