Robots协议

Robots协议:网络爬虫排除标准 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行 形式:在网站根目录下的robots。txt文件。 # 注释,* 代表所有,/代表根目录 User-agent: * Disallow: / Robots协议的使用: 网络爬虫:自动或人工识别robo...

2018-02-07 10:01:40

阅读数 35

评论数 0

Requests库的七个方法以及13个参数

"""Requests库的七个主要方法: requests.request():构造一个请求,支撑一下各方法的基础方法 requests.get():获取HTML网页的主要方法,对应HTTP的GET requests.head():获取HTML网页头的信息方法,...

2018-02-07 10:00:15

阅读数 2778

评论数 0

Request库异常和通用框架

"""Request库的异常 requests.ConnectionError:网络连接错误一场,如DNS查询失败,拒绝连接等 requests.HTTPError:HTTP错误异常 requests.URLRequired:URL缺失异常 requests....

2018-02-07 09:58:19

阅读数 188

评论数 0

数字类型

类型的概念:类型是变成语言对数据的一种划分 python语言类型: 1.数字类型 2.字符串类型 3.元组类型 4.列表类型 5.文件类型 6.字典类型 数学类型概念与使用方法: 例:010/10存在多种可能 表示10进制额度数值10 类似人名的字符串 ...

2018-02-07 09:55:58

阅读数 101

评论数 0

字符串类型

字符串是用“”或者‘’括起来的一个或多个字符 字符串可以保存在变量中也可以单独存在 使用type()函数可测试一个字符串的类型 字符串是一个字符序列:字符串最左端位置标记为0,依次增加,字符串中的编号叫做索引 单个索引辅助访问字符串中的特定位置 s="hello,word&qu...

2018-02-07 09:55:42

阅读数 136

评论数 0

元组,列表

元组的概念: 远足包含多个元素的类型,元素之间好用逗号分割。 例:t1=123,456,‘hello’ 元组也可以是空的:t1=() 元组可以包含一个元素:t3=123, 元祖外侧可以使用括号,也可以不使用。 元组的特点: 不同类型 各个元素存在先后关系,可通过索引访问元组中的元素...

2018-02-07 09:55:26

阅读数 57

评论数 0

文件处理实例

def main(): ftele1=open('TeleAddressBook.txt','rb') ftele2=open('EmailAddressBook.txt','rb') ftele1.readline()#跳过第一行 ftele2.readline...

2018-02-07 09:55:11

阅读数 113

评论数 0

字典

dict字典表 特性:通过键(key)访问,而非位置偏移(下标索引)访问数据 可包含任意对象的无序集合 可变长度,异质,可任意嵌套 属于“可变映射”分类 声明:{}空字典表 {key:value,} dict(key=value) dict[(key.value),(key,vau...

2018-02-07 09:54:55

阅读数 46

评论数 0

字典实例

统计一篇英语文章,出现的单词频率,并且绘制成柱状图 import turtle ##全局变量 #词频排列显示个数 count=10 #单词频率数组-作为Y轴数据 data=[] #单词数组-作为X轴数据 words=[] #Y轴放大倍数-可以根据词频数量进行调节 yScale=6 #X轴显...

2018-02-07 09:54:39

阅读数 78

评论数 0

爬虫实例

###实例1.京东商品页面爬取 import requests url="https://sale.jd.com/act/AifyItq84Tgd6.html?cpdad=1DLSUE" try: r=requests.get(url) r.raise_for_...

2018-02-07 09:54:02

阅读数 148

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭