python爬虫 - python requests网络请求简洁之道

requests简介 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但是python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。 Requests 使用的是 urllib3,因此继承了它的所有特性。Requests 支持 HTTP 连接保持和连接池,支持使用 cookie 保持会话...
阅读(5559) 评论(0)

python3爬虫 - 利用浏览器cookie登录

http://blog.csdn.net/pipisorry/article/details/47980653 爬虫爬网站不免遇到需要登录的问题. 登录的时候可能还会碰到需要填验证码的问题, 有的验证码甚至是拖动拼图来完成的. 虽然现在这些都有开源解决方案, 但是假设现在主要的精力想要放在如何解析html, 或者验证抓取算法上, 而不是通过登录验证上, 那么开源解决方案并不是最好的解决方案.更好...
阅读(6029) 评论(0)

python3爬虫 - cookie登录实战

http://blog.csdn.net/pipisorry/article/details/47948065 实战1:使用cookie登录哈工大ACM网站 获取网站登录地址 http://acm.hit.edu.cn/hoj/system/login 查看要传送的post数据 user和password Code: #!/usr/bin/env python # -*-...
阅读(14697) 评论(8)

python爬虫 - Urllib库及cookie的使用

怎样扒网页? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。 如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的。 扒网页的栗子 import urllib2 response = urllib2.ur...
阅读(9768) 评论(2)

微博登录过程分析

http://blog.csdn.net/pipisorry/article/details/47904355 如果要想获取微博中的数据,最重要的第一步就是模拟登录了。这里讲解一下微博登录的流程,有助于用代码实现。 Sina CAS的登陆过程 其实sina的sso实现了yale-CAS并且添加一丁点新的东西,基本认证过程交互流程仍然未变。其独创的一点是实现了Ajax单点登陆,比较牛。实现...
阅读(4189) 评论(1)

scrapy模拟登录微博

http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容。关于登录流程为嘛如此设置,请参考[微博登录过程分析]。 截包分析 下载软件Fiddler for .NET2查看相关登录流程信息。运行python程序访问和直接在浏览器中刷新页面都可以在fiddler中找到网络包的...
阅读(6341) 评论(0)

python爬虫 - scrapy的安装和使用

http://blog.csdn.net/pipisorry/article/details/45190851 Crawler Framework爬虫框架scrapy简介 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python。 Scrapy用途广泛,可以用于数据挖掘、监测和自...
阅读(8639) 评论(2)

python爬虫框架

http://blog.csdn.net/pipisorry/article/details/21840247 Introduction to crawler爬虫简介 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据。Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获...
阅读(2586) 评论(0)
    个人资料
    • 访问:2208489次
    • 积分:23262
    • 等级:
    • 排名:第285名
    • 原创:530篇
    • 转载:30篇
    • 译文:5篇
    • 评论:233条
    Welcome to 皮皮blog~

    博客专栏
    最新评论