Python爬虫实战
文章平均质量分 62
这是自己在学习爬虫的几个小练习,希望对爬虫感兴趣的人有点帮助。
HelloWorld_EE
这个作者很懒,什么都没留下…
展开
-
《python识别验证码》
上一篇博文《模拟登陆》中遇到了一个问题:由于登陆需要输入验证码,而没能模拟登陆成功,今天刚好借着开题有点时间,因此就研究了下这个问题,百度了下,发现这个问题还是挺复杂的,但是,对于只含有“数字”的验证码,还是挺容易的。程序需要PIL库和pytesser库支持。 关于PIL可以直接用官网下载。 关于pytesser可以到这里下载:到时候我提供给一个连接。 关于pytesser的使用:直接加压缩后原创 2015-12-17 21:00:44 · 1609 阅读 · 0 评论 -
《python爬虫实战》:模拟登陆
前面几篇博文基本上都是在不需要进行登陆的网页上面的进行内容的抓取。如果有的网页时需要我们先登陆后才能看到的,那么如果要爬取这些上面的网页的内容,就需要先模拟登陆,然后进行数据的抓取。这篇博文是自己学习的如何进行模拟登陆,将其记录下来。本博文将其知乎网:http://www.zhihu.com为例。第一步:获取知乎网首页的html源码用简单的get方法来获取知乎网首页的html源码,实现代码如下:#e原创 2015-12-12 21:47:50 · 1796 阅读 · 0 评论 -
《python爬虫实战》:爬取淘宝上MM的信息和照片
经过前面几次的爬虫,自己对爬取网页也有了一定的经验。当我们想爬取网页上的内容时,我们唯一要确定的就是这些内容所对应的正则表达式。此次例子访问的地址为:#访问地址:URL="https://mm.taobao.com/json/request_top_list.htm?page=1"第一步:毫无疑问,获取一个网页的html源码代码如下,这里我们将其写为一个方法。def getPageHtml(self原创 2015-12-12 20:17:04 · 4263 阅读 · 0 评论 -
《python爬虫实战》:爬取贴吧上的帖子
《python爬虫实战》:爬取贴吧上的帖子经过前面两篇例子的练习,自己也对爬虫有了一定的经验。 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写。但是,当写几个正则表达式之后,发现还是有一定的规则可循的,只要我们的目的明确,想得到网页的什么,我们就直接在该网页上,找到我们想要的内容在html代码中出现的格式是怎么样的。例如,我们想获取贴吧上帖子的标题。 解决原创 2015-12-06 22:18:42 · 19260 阅读 · 2 评论 -
《python爬虫实战》:爬取图片
《python爬虫实战》:爬取图片上篇博文讲解了关于爬取糗事百科上面的段子的例子程序,这篇博文,主要的目的就是爬取任何不用登陆的网站上的图片。还是以糗事百科为例。例子:爬取糗事百科上的图片实现代码如下:#encoding=utf-8#功能:爬取糗事百科上面的图片import urllib2import urllibimport re#raw_input是python的一个内置函数,通过读取原创 2015-12-05 22:43:36 · 2354 阅读 · 0 评论 -
《python爬虫实战》:爬糗百上的段子
第一个版本利用urllib2库获取糗事百科的html代码。 这个就比较简单,如下:#encoding=utf-8#功能:抓取糗事百科段子的第一个版本import urllibimport urllib2url="http://www.qiushibaike.com/hot/page/1"#添加一个请求头user_agent="Mozilla/5.0 (Windows NT 6.1)"原创 2015-12-05 21:38:15 · 1161 阅读 · 0 评论