爬虫
文章平均质量分 66
996station
996技术站,极客带你看世界
展开
-
HTTP常用响应头汇总
HTTP 响应头列表应答头说明Allow服务器支持哪些请求方法(如GET、POST等)。Content-Encoding文档的编码(Encode)方法。只有在解码之后才可以得到Content-Type头指定的内容类型。利用gzip压缩文档能够显著地减少HTML文档的下载时间。Java的GZIPOutputStream可以很方便地进行gzip压缩,但只有Unix上的Netscape和Windows上...原创 2018-07-07 23:23:06 · 760 阅读 · 1 评论 -
python3爬虫使用post请求实现百度翻译
使用post请求实现百度翻译#!/usr/bin/python# -*- coding: utf-8 -*-# 0. 分析百度翻译# http://fanyi.baidu.com/basetransimport requestsimport json# 1. 定义构建请求参数url = "http://fanyi.baidu.com/basetrans"#定义请求头hea...原创 2018-07-08 00:00:24 · 1649 阅读 · 1 评论 -
proxy & proxy池 (代理服务器)python中的爬虫用法
代理流程代理服务器相关网站米扑三一代理快代理等等...代码中使用代理#!/usr/bin/python# -*- coding: utf-8 -*-# 1. 导入模块import requests# 2. 请求数据获取响应url = 'http://www.baidu.com'# 自定义请求头headers = { "User-Agent":"Mozilla/5.0 (...原创 2018-07-07 23:49:16 · 353 阅读 · 0 评论 -
python3百度贴吧爬虫小程序逻辑及面向对象实现
逻辑实现#!/usr/bin/python# -*- coding: utf-8 -*-import requests# 0. 分析爬取对象# https://tieba.baidu.com/f?kw=贴吧名&pn=页数# 1. 创建 url listkw = '微信小程序'# 方式一# url = "https://tieba.baidu.com/f?kw=%s&a...原创 2018-07-07 23:46:24 · 321 阅读 · 0 评论 -
python3中requests模块的使用
requests 模块requests 安装安装 pip install requestsrequests 基本使用#!/usr/bin/python# -*- coding: utf-8 -*-# 1. 导入模块import requests# 2. 请求数据获取响应url = 'http://www.baidu.com'response = requests.get(url...原创 2018-07-07 23:43:51 · 991 阅读 · 1 评论 -
python2和python3字符编码,utf-8,unicode
字符编码字符集asciiISO-8859-1通常叫 做Latin-1,向下兼容ASCII,此字符集支持部分于欧洲使用的语言GB2312/GBK这就是汉字的国标码,专门用来表示汉字,是双字节编码,而英文字母和iso8859-1一致(兼容iso8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而gb2312只能表示简体字,gbk是兼容gb2312编码的。unicode万国码Uni...原创 2018-07-07 23:41:28 · 1768 阅读 · 1 评论 -
python3 urllib的使用
urllib 基本使用#!/usr/bin/python# -*- coding: utf-8 -*-# 1. 导入库import urllib.request# 2. 发送请求并获取响应对象url = 'http://www.baidu.com'response = urllib.request.urlopen(url)# 3. 处理响应结果print(response.r...原创 2018-07-07 23:37:26 · 729 阅读 · 0 评论 -
Mac和Linux平台抓包工具的配置和使用
抓包工具抓包工具介绍HTTP 协议抓包工具FileFoxChromeIEFiddler(仅 windows 系统)Charles...TCP 协议抓包工具Wiresharktcpdump...抓包工具的作用分析爬取对象,为我们未来编写爬虫自定策略。抓包工具原理Charles 工具Mac 系统平台安装拷贝Charles.app到/Applications目录下替换charles.jar到...原创 2018-07-07 23:35:25 · 1563 阅读 · 1 评论 -
HTTP常用状态码汇总
HTTP 状态码HTTP状态码分类HTTP 状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP 状态码共分为5种类型分类分类描述1**信息,服务器收到请求,需要请求者继续执行操作2**成功,操作被成功接收并处理3**重定向,需要进一步的操作以完成请求4**客户端错误,请求包含语法错误或无法完成请求5**服务器错误,服务器在处理请求的过程中发生了错误H...原创 2018-07-07 23:24:38 · 212 阅读 · 1 评论 -
python爬虫——利用 session 处理登录状态 github 登录实例
CookieCookies是服务器在本地机器上存储的小段文本并随每一个请求发送至同一个服务器Sessionsession机制是一种服务器端的机制,服务器使用一种类似于散列表的结构(也可能就是使用散列表)来保存信息。使用Cookies直接访问需要登录的获取数据#!/usr/bin/python# -*- coding: utf-8 -*-import requests# 1. 利用 h...原创 2018-07-08 00:02:32 · 6821 阅读 · 1 评论