- 博客(10)
- 收藏
- 关注
原创 Robots协议
Robots协议:网络爬虫排除标准作用:网站告知网络爬虫哪些页面可以抓取,哪些不行形式:在网站根目录下的robots。txt文件。# 注释,* 代表所有,/代表根目录User-agent: *Disallow: /Robots协议的使用:网络爬虫:自动或人工识别robots.txt文件
2018-02-07 10:01:40 260
原创 Requests库的七个方法以及13个参数
"""Requests库的七个主要方法:requests.request():构造一个请求,支撑一下各方法的基础方法requests.get():获取HTML网页的主要方法,对应HTTP的GETrequests.head():获取HTML网页头的信息方法,对应HTTP的HEADrequests.post():向HTML网页提交POST请求方法,对应HTTP的POSTreques
2018-02-07 10:00:15 5626 1
原创 Request库异常和通用框架
"""Request库的异常requests.ConnectionError:网络连接错误一场,如DNS查询失败,拒绝连接等requests.HTTPError:HTTP错误异常requests.URLRequired:URL缺失异常requests.TooManyRedirects:超过最大重定向次数,产生重定向异常requests.ConnectTimenout:连接远程服
2018-02-07 09:58:19 631
原创 数字类型
类型的概念:类型是变成语言对数据的一种划分python语言类型:1.数字类型2.字符串类型3.元组类型4.列表类型5.文件类型6.字典类型数学类型概念与使用方法:例:010/10存在多种可能表示10进制额度数值10类似人名的字符串0x,0X开头表示16进制数0b,0B开头表示2进制数0o,0O开头表示8进制数
2018-02-07 09:55:58 470
原创 字符串类型
字符串是用“”或者‘’括起来的一个或多个字符字符串可以保存在变量中也可以单独存在使用type()函数可测试一个字符串的类型字符串是一个字符序列:字符串最左端位置标记为0,依次增加,字符串中的编号叫做索引单个索引辅助访问字符串中的特定位置s="hello,word"s[1]python中字符串索引从0开始,一个长度为L的字符串最后一个字符位置是L-1python中同时
2018-02-07 09:55:42 1602
原创 元组,列表
元组的概念:远足包含多个元素的类型,元素之间好用逗号分割。例:t1=123,456,‘hello’元组也可以是空的:t1=()元组可以包含一个元素:t3=123,元祖外侧可以使用括号,也可以不使用。元组的特点:不同类型各个元素存在先后关系,可通过索引访问元组中的元素。元祖定义后不能更改,也不能删除与字符串类似,可以通过索引区间来访问元祖中的部分元素,
2018-02-07 09:55:26 337
原创 文件处理实例
def main(): ftele1=open('TeleAddressBook.txt','rb') ftele2=open('EmailAddressBook.txt','rb') ftele1.readline()#跳过第一行 ftele2.readline() lines1=ftele1.readlines() lines2=ftele2.
2018-02-07 09:55:11 408
原创 字典
dict字典表特性:通过键(key)访问,而非位置偏移(下标索引)访问数据可包含任意对象的无序集合可变长度,异质,可任意嵌套属于“可变映射”分类声明:{}空字典表{key:value,}dict(key=value)dict[(key.value),(key,vaule),]dict.formkets([key1,key2,...])emloyee={'na
2018-02-07 09:54:55 179
原创 字典实例
统计一篇英语文章,出现的单词频率,并且绘制成柱状图import turtle##全局变量#词频排列显示个数count=10#单词频率数组-作为Y轴数据data=[]#单词数组-作为X轴数据words=[]#Y轴放大倍数-可以根据词频数量进行调节yScale=6#X轴显示放大倍数-可以根据count数量进行调节xScale=30#####turtle start#
2018-02-07 09:54:39 272
原创 爬虫实例
###实例1.京东商品页面爬取import requestsurl="https://sale.jd.com/act/AifyItq84Tgd6.html?cpdad=1DLSUE"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[
2018-02-07 09:54:02 334
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人