Python网络请求与爬虫
-柚子皮-
╰☆ゞ不染纤尘,不忘初心ゞ☆╮
展开
-
python爬虫 - Urllib库及cookie的使用
怎样扒网页?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS、CSS。如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的。扒网页的栗子import urllib2response = urllib2.ur原创 2015-08-23 15:44:50 · 39017 阅读 · 5 评论 -
python3爬虫 - 利用浏览器cookie登录
http://blog.csdn.net/pipisorry/article/details/47980653爬虫爬网站不免遇到需要登录的问题. 登录的时候可能还会碰到需要填验证码的问题, 有的验证码甚至是拖动拼图来完成的. 虽然现在这些都有开源解决方案, 但是假设现在主要的精力想要放在如何解析html, 或者验证抓取算法上, 而不是通过登录验证上, 那么开源解决方案并不是最好的解决方案.更好原创 2015-08-25 17:51:53 · 16110 阅读 · 1 评论 -
python3爬虫 - cookie登录实战
http://blog.csdn.net/pipisorry/article/details/47948065实战1:使用cookie登录哈工大ACM网站获取网站登录地址http://acm.hit.edu.cn/hoj/system/login查看要传送的post数据user和passwordCode:#!/usr/bin/env python# -*-原创 2015-08-24 11:03:14 · 43805 阅读 · 10 评论 -
python爬虫框架
http://blog.csdn.net/pipisorry/article/details/21840247Introduction to crawler爬虫简介一个真实的项目,一定是从获取数据开始的。无论文本处理,机器学习和数据挖掘,都需要数据,除了通过一些渠道购买或者下载的专业数据外,常常需要大家自己动手爬数据。Python提供了一批很不错的网页爬虫工具框架,既能爬取数据,也能获原创 2014-03-23 00:37:56 · 4057 阅读 · 0 评论 -
scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容。关于登录流程为嘛如此设置,请参考[微博登录过程分析]。截包分析下载软件Fiddler for .NET2查看相关登录流程信息。运行python程序访问和直接在浏览器中刷新页面都可以在fiddler中找到网络包的原创 2015-07-22 20:43:19 · 13718 阅读 · 0 评论 -
微博登录过程分析
http://blog.csdn.net/pipisorry/article/details/47904355如果要想获取微博中的数据,最重要的第一步就是模拟登录了。这里讲解一下微博登录的流程,有助于用代码实现。Sina CAS的登陆过程其实sina的sso实现了yale-CAS并且添加一丁点新的东西,基本认证过程交互流程仍然未变。其独创的一点是实现了Ajax单点登陆,比较牛。实现原创 2015-08-23 11:46:27 · 11167 阅读 · 1 评论 -
python爬虫 - scrapy的安装和使用
http://blog.csdn.net/pipisorry/article/details/45190851Crawler Framework爬虫框架scrapy简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy = Scrach+Python。Scrapy用途广泛,可以用于数据挖掘、监测和自原创 2015-04-22 09:59:08 · 20500 阅读 · 2 评论 -
python爬虫 - python requests网络请求简洁之道
http://blog.csdn.net/pipisorry/article/details/48086195requests简介 requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。大神kennethreitz的作品,简易明了的HTTP请求操作库, 是urllib2的理想替代品。requests is an elegant...原创 2015-08-29 12:04:25 · 11456 阅读 · 0 评论