皮皮blog

Talk is cheap, Show me the code!

排序:
默认
按更新时间
按访问量

python爬虫 - python requests网络请求简洁之道

requests简介 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但是python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。 Requests 使用的是 urllib3,因此继承了它的...

2015-08-29 12:04:25

阅读数:8983

评论数:0

python3爬虫 - 利用浏览器cookie登录

http://blog.csdn.net/pipisorry/article/details/47980653 爬虫爬网站不免遇到需要登录的问题. 登录的时候可能还会碰到需要填验证码的问题, 有的验证码甚至是拖动拼图来完成的. 虽然现在这些都有开源解决方案, 但是假设现在主要的精力想要放在如何解析...

2015-08-25 17:51:53

阅读数:10952

评论数:1

python3爬虫 - cookie登录实战

http://blog.csdn.net/pipisorry/article/details/47948065 实战1:使用cookie登录哈工大ACM网站 获取网站登录地址 http://acm.hit.edu.cn/hoj/system/login 查看要传送的post数据 user和pa...

2015-08-24 11:03:14

阅读数:32808

评论数:10

python爬虫 - Urllib库及cookie的使用

怎样扒网页? 其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。 如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中...

2015-08-23 15:44:50

阅读数:21288

评论数:4

微博登录过程分析

http://blog.csdn.net/pipisorry/article/details/47904355 如果要想获取微博中的数据,最重要的第一步就是模拟登录了。这里讲解一下微博登录的流程,有助于用代码实现。 Sina CAS的登陆过程 其实sina的sso实现了yale-CAS并且添加一...

2015-08-23 11:46:27

阅读数:6772

评论数:1

scrapy模拟登录微博

http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容。关于登录流程为嘛如此设置,请参考[微博登录过程分析]。 截包分析 下载软件Fiddler for .NET2查看相关登录...

2015-07-22 20:43:19

阅读数:9439

评论数:0

python爬虫 - scrapy的安装和使用

http://blog.csdn.net/pipisorry/article/details/45190851 Crawler Framework爬虫框架scrapy简介 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。S...

2015-04-22 09:59:08

阅读数:15230

评论数:2

python爬虫框架

http://blog.csdn.net/pipisorry/article/details/21840247 Introduction to crawler爬虫简介 一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,...

2014-03-23 00:37:56

阅读数:3408

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭