python爬虫学习
文章平均质量分 79
kelvinmao
这个作者很懒,什么都没留下…
展开
-
python网络爬虫学习(三)正则表达式的使用之re.match方法
一.为什么要学习正则表达式很好,我们现在已经能够写出获得网站源代码的程序了,我们有了第一个问题:如何从杂乱的代码中找到我们所需的信息呢?此时,正则表达式的学习就显得很有必要了。有人打趣说,当你想到用正则表达式解决一个问题时,你就拥有了两个问题。从这句话中可以看出正则表达式学习的困难程度,但是为了写出好的爬虫,我们必须对其进行学习。二.正则表达式的语法规则’>1.正则表达式的一些注解(一)贪婪与非贪婪原创 2016-05-23 23:37:42 · 19037 阅读 · 0 评论 -
python网络爬虫学习(四)正则表达式的使用之re的其他方法
在上一篇文章中,我们学习了re的match方法,那么掌握了match方法,其他的方法学起来就相对轻松许多,下面对这些方法进行介绍re.searchsearch方法与match方法最大的不同在于,match方法要求必须是从字符串的起始开始匹配,而search则会扫描整个字符串进行匹配。下面给出示例代码:# -*-coding=utf-8 -*- import re pattern=re.compile原创 2016-05-26 22:55:54 · 1977 阅读 · 0 评论 -
python网络爬虫学习(一)通过GET和POST方式获取页面内容
python网络爬虫学习 (一)通过GET和POST方式获取页面内容网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。HTTP协议中定义了四个与服务器进行交互的方法,分别是GET, POST,PUT,DELETE ,实际对应对服务器内容的“增”删“改”查“四个操作本篇文章主要记录我学习GET和POST请求方式的过程首先,如何区原创 2016-05-20 21:06:13 · 22162 阅读 · 0 评论 -
python网络爬虫学习(二)一个爬取百度贴吧的爬虫程序
今天进一步学习了python网络爬虫的知识,学会了写一个简单的爬虫程序,用于爬取百度贴吧的网页并保存为HTML文件。下面对我在实现这个功能时的代码以及所遇到的问题的记录总结和反思。首先分析实现这个功能的具体思路: 通过对贴吧URL的观察,可以看出贴吧中的帖子的URL有这样一个特征,以“http://tieba.baidu.com/p/4463392102?pn=3”这个URL为例,它由“http:原创 2016-05-21 17:00:25 · 1604 阅读 · 0 评论 -
python网络爬虫学习(五) 模拟登陆北邮信息门户并爬取信息
之前利用爬虫爬取过百度贴吧的部分页面,但是百度贴吧并不需要登录。当我们发现一些网站上有具有实用价值的信息时,又往往需要登录后才能查看这些信息。那么如何通过python模拟登陆这些网站呢?我们以北邮信息门户为例。一.工具1.requests库2.firefox浏览器和Temper Data“工欲善其事,必先利其器”,之前我们介绍过urllib和urllib2这两个python自带的库。而request原创 2016-06-10 20:55:18 · 6365 阅读 · 2 评论 -
python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片
一.新的问题与工具平时在淘宝上剁手的时候,总是会看到各种各样的模特。由于自己就读于一所男女比例三比一的工科院校……写代码之余看看美女也是极好的放松方式。但一张一张点右键–另存为又显得太过麻烦而且不切实际,毕竟图片太多了。于是,我开始考虑用万能的python来解决问题。我们先看看淘女郎页面的URL,https://mm.taobao.com/json/request_top_list.htm?page原创 2016-06-16 11:25:50 · 7279 阅读 · 0 评论