爬虫
文章平均质量分 92
bgods
这个作者很懒,什么都没留下…
展开
-
爬取淘宝MM图片
获取淘宝MM的所有用户主页的图片。以下是代码(包含注释),运行环境是win、python2.7.10:#coding:GBKimport requestsimport json,refrom lxml import etreeimport urllibimport osdef get_totalpage(): '''获取所有页面总数''' url = "http://mm原创 2015-09-27 15:16:21 · 1119 阅读 · 0 评论 -
python获取新浪新闻
1、获取新浪新闻的标题以及要闻,保存到txt中(目录以及文件名可以自定义);2、新闻包括国内新闻、国际新闻、社会新闻(依据提示选择);3、运行环境,python2.7、win8.1(64位)、IDE(pycharm4.5)。声明:仅用作学习交流=========================以下是完整代码================================#coding:UTF-8im原创 2015-10-12 22:21:19 · 2844 阅读 · 0 评论 -
XML和XPath使用方法备忘(转载)
XML和XPath使用方法备忘(转载)如果把XML看作传统的关系数据库,那么XPath就是SQL。R语言中的XML包可用来解析处理XML或是HTML数据。在之前的文章中,我们了解到readHTMLTable函数,如果页面中的数据是一个规整的表格,用它是很方便的,但如果页面中是一些非结构化的数据,就要用到XML包中的其它函数了。其中最重要两个函数是xmlTreeParse()和getNodeSet()转载 2016-03-09 21:07:08 · 1529 阅读 · 0 评论 -
初识Scrapy-实战(一)
接触爬虫也有一段时间了,起初都是使用request库爬取数据,并没有使用过什么爬虫框架。之前仅仅是好奇,这两天看了一下scrapy文档,也试着去爬了一些数据,发现还真是好用。以下以爬 易车网的销售指数为例。具体过程就不多说了;需要的字段:时间(年月);销售量;类别(包括小型、微型、中型、紧凑型、中大型、SUV、MPV、品牌、厂商);车型。分析网站分析URL http://index.bi原创 2016-04-22 21:21:26 · 1045 阅读 · 0 评论 -
python模拟新浪微博登陆之获取cookies
python模拟新浪微博登陆之获取cookie首先感谢,敲代码的耗子http://www.cnblogs.com/mouse-coder/archive/2013/03/03/2941265.html?utm_source=tuicool,之前一直搞不懂登陆新浪微博的原理,看了他那篇文章之后,终于明白了基本原理。在这里主要是通过代码实现那篇文章的过程。获取网页使用的包是requests,正则匹配用的原创 2015-09-12 18:58:08 · 13086 阅读 · 6 评论 -
python使用cookie登陆新浪微博用户信息
在上一篇博客python模拟新浪微博登陆之获取cookies中,已经实现了登陆新浪微博并把cookie保存了下来。接下来通过得到的cookie去访问新浪微博其他页面,并获取我们想要的信息。顺便一提,我的软件是python2.7.10(64位),IDE是pycharm,win8.1系统环境。所用到的包是base64、rsa、binascii、re、requests。这里,我首先通过访问自己新浪微博主页原创 2015-09-13 16:09:57 · 8234 阅读 · 1 评论