Python
文章平均质量分 56
General_单刀
加油吧~~~
展开
-
Python网络爬虫——urllib库的使用
urllib是python处理url的软件包,包含四个处理url的模块,分别为: urllib.request——用于打开url和读取url urllib.error——包含urllib.request引发的异常 urllib.parse——用于解析url urllib.robotparse——用于解析robots.txt文件...原创 2019-11-22 14:17:22 · 471 阅读 · 0 评论 -
Python网络爬虫——使用Cookie
Cookie是用来维持会话之间的状态,比如,将登录成功后的一些信息保存下来,一般常用的方式有两种:1、通过Cookie保存会话信息 2、通过Session保存会话信息如果是通过Cookie保存会话信息,会将所有的信息保存在客户端,当访问通过一个网站的其他页面的时候,会从Cookie中读取对应的信息,从而判断目前的会话状态如果是通过Session保存会话信息,会将会话信息保存在服务...原创 2019-10-25 16:06:08 · 337 阅读 · 0 评论 -
Python网络爬虫——爬虫简介
1、网络爬虫的组成 网络爬虫由控制节点、爬虫节点、资源库组成。控制节点也叫做中央处理器,每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信,同时,控制节点和其下的各个爬虫节点之间也可以进行互相通信,属于同一控制节点下的各爬虫节点间,亦可以互相通信。2、网络爬虫的类型通用网络爬虫,也叫全网爬虫,海量爬取聚焦网络爬虫,也叫主题网络爬虫,按照预先定义好的主题有选择的进行网页...原创 2018-08-06 11:02:29 · 1267 阅读 · 0 评论 -
Python网络爬虫——使用Urllib爬取网页
1、简介urllib模块是python提供提供的一个用于操作URL的模块2、使用第一步:用urllib快速爬去一个网页在此以百度为例,如下,答应出爬取到的网页的全部内容和一行内容。# *-*coding:utf-8*-*from urllib import requestfile = request.urlopen("http://www.baidu.com")data...原创 2018-08-06 14:27:41 · 1547 阅读 · 2 评论 -
Python网络爬虫——模拟浏览器
1、简介有些网站为了防止别人恶意采集信息,所以进行了反爬虫的设置。这个时候,就需要模拟成浏览器去访问这些网站。2、应用就比如我们模拟浏览器去爬取百度首页(添加User-Agent信息)。有如下两种方式方法一:使用build_opener()修改报头# coding:utf-8from urllib import requesturl = "http://www.baidu...原创 2018-08-06 22:23:35 · 675 阅读 · 0 评论 -
Python网络爬虫——超时设置
1、简介有的时候,访问一个网页,如果该网页长时间未响应,那么系统就会判断该网页超时了。但是,有的时候我们需要根据自己的需要来设置超时的时间值,比如,以10秒做为判断一个网页是否超时的标准。2、应用循环99次爬虫百度首页的网站,将超时时间设置为1秒。# *-*coding:utf-8*-*from urllib import requestfor i in range(1,10...原创 2018-08-07 09:58:07 · 6451 阅读 · 1 评论 -
Python网络爬虫——HTTP请求
1、简介如果要进行客户端和服务端之间的消息传递,需要HTTP协议请求,HTTP协议请求主要分为6种类型:GET请求、POST请求、PUT请求、DELETE请求、HEAD请求,OPTIONS请求。2、应用GET请求实例:思路:1、构建对应的URL地址,该URL地址包含该GET请求的字段名和字段请求等信息,并且URL地址满足GET请求的格式,即“http://网址?字段名1=字段内...原创 2018-08-07 11:23:49 · 501 阅读 · 0 评论 -
Python网络爬虫——设置代理服务器
1、简介使用同一个ip频繁爬取一个网站,久了之后会被该网站的服务器屏蔽。所以这个时候需要使用代理服务器。通过ip欺骗的方式去爬取网站可以使用http://yum.iqianyue.com.com/proxy中找到很多服务器代理地址2、应用# *-*coding:utf-8*-*from urllib import requestdef use_porxy(porxy_addr...原创 2018-08-07 14:04:38 · 3316 阅读 · 0 评论 -
Python网络爬虫——DebugLog
1、简介在爬虫程序运行的时候,我们希望边运行边打印调试日志,此时,就需要开启DebugLog2、应用使用思路:1、分别使用urllib.request.HTTPHandler()和urllib.request.HTTPSHandler()将debuglevel设置为12、使用urllib.request.build_opener()创建自定义的opener对象,并使用1中设置的...原创 2018-08-07 14:18:39 · 485 阅读 · 0 评论 -
Python网络爬虫——异常处理URLError
首先要熟悉一下python的urllib库,它是python用于操作url的模块导入模块并爬取一个网页import urllib.requestfile = urllib.request.urlopen("http://www.baidu.com")在此,可以使用file.read()读取全部内容,也可以使用file.file.readline()读取一行内容.(file.rea...原创 2018-08-07 14:27:28 · 648 阅读 · 0 评论 -
Python中的作用域和闭包
简介:Python 装饰器可帮助我们抽离出大量函数中与函数功能本身无关的雷同代码,并继续重用。1、函数的作用域LEGB首先来介绍一下什么是LEGB: L:(local)函数内部作用域 E:(enclosing)函数内部与内嵌函数之间 G:(global)全局作用域 B:(build-in)内置作用域python解释器查找变量的规则:L>E>G>B通过如下练...原创 2018-06-28 17:50:45 · 363 阅读 · 0 评论 -
Python数据类型使用方法
在Python里面,数据类型可以分为两大类,一类是基本数据类型,一类是复合数据类型。一、基本数据类型基本数据类型一共包含:整数、浮点数、字符串、布尔值和None1、整数任意大小的整数,比如:正整数、负整数、02、浮点数浮点数就是小数,包含正的和负的两种,3、字符串在python中用单引号或者双引号括起来的文本就是字符串,Python中对于字符串,主要有以下几种方式:a、计算字符串的长度使用len(...原创 2018-05-30 15:46:51 · 1295 阅读 · 0 评论 -
python+selenium自动化测试环境搭建
1.安装python:(之前已经介绍)http://www.cnblogs.com/jinshengshun/p/6102012.html2.因为我安装的python已经有setup和pip,所以省去两步,直接使用pip安装selenium。直接在D:\Python\Scripts下输入命令安装:pip install -U selenium。(就是python的安装路径) 3.点击回车,虽然se...原创 2018-04-26 13:17:22 · 217 阅读 · 0 评论 -
python中的类和对象,属性和方法
一、面向对象的概述面向对象是一种描述业务问题、设计业务实体和实体之间关系的方法二、类和对象1、类和对象得区别:类是对客观世界中事物得抽象,而对象是类实例化后的实体 例如:汽车模型就是一个类,制造出来的每辆汽车就是一个对象2、类的定义: (1)python使用class关键字定义一个类,类名的首字母一般要大写: 例如:class Student: #定义了一个Student类...原创 2018-04-26 13:18:30 · 39891 阅读 · 8 评论 -
python面向对象编程
一、面向过程和面向对象的不同之处例如:要处理学生的成绩表面向过程:std1={'name':'Micheal','score':'98'}std2={'name':'Bob','score':81} 现在打印学生的成绩:def print_score(std): print('%s,%s'%(std['name'],std['score']))面向对象:class Student():...原创 2018-04-26 13:19:26 · 273 阅读 · 0 评论 -
Python扩展库的4中安装方法
1.pip安装例:pip install Django可在Python安装文件的scripts目录下运行pip查看使用帮助2.tar.gz文件安装将文件下载后,对文件进行解压,进入解压目录,通过python命令安装例:python3 setup.py install3..whl文件安装下载文件后通过Python命令安装例:pip install *****.whl4.GitHub克隆项目安装首先安...原创 2018-04-27 09:49:01 · 430 阅读 · 0 评论 -
Python操作文件相关方法整理
python操作文件一般用到的模块有:os, shutil1、得到当前脚本工作的目录:os.getcwd();它返回一个字符串2、得到指定目录下的我所有文件和目录名:os.listdir();它接受一个参数是文件路径,以列表形式返回结果3、删除一个文件:os.remove();它接受一个参数,是文件的目录,具体到文件名。没有返回值。注意:它只能删除文件,不能删除目录4、删除多个目录:os.remo...原创 2018-04-27 09:54:55 · 292 阅读 · 0 评论 -
Python操作excel文件相关方法
读取excel文件,这里使用xlrd,使用的时候首先要导入xlrd模块;得到的类型是unicode数据类型ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error#打开excel文件读取数据data = xlrd.open_workbook("test.xls")#获取一个工作表方式一table = data.sheets()[0...原创 2018-04-27 09:56:24 · 199 阅读 · 0 评论 -
处理Python中的编码问题
1、首先要在开头说明编码方式为:utf-8例如:-*- coding: utf-8 -*-2、如果遇到字符串,立刻转化为unicode,不要使用str(),直接使用unicode()unicode_str = unicode('中文', encoding='utf-8')print unicode_str.encode('utf-8')3、如果是对于文件操作,打开文件的时候,最好使用codecs....原创 2018-04-27 09:58:12 · 209 阅读 · 0 评论 -
python日志之logging模块使用方法
一、简介logging模块是python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件和回滚等;可以说,logging模块主要由4部分组成: *Logger 记录器,提供了应用程序代码能直接使用的接口 *Handler 处理器,将记录器产生的日志记录发送至合适的目的地,或者说将Logger产生的日志传到指定位置 *Filters 过滤器,对输...原创 2018-04-27 10:03:00 · 1120 阅读 · 0 评论 -
Python中的lambda函数
lambda函数用于创建一个匿名函数,格式如下:1 lambda 变量1,变量2...:表达式lambda属于函数,通常把lambda赋值给一个变量,变量就可以作为函数使用,例如:1 #赋值2 func=lambda 变量1,变量2...:表达式3 #调用4 func()变量func的名称就是函数名例子: 1 #coding=utf-8 2 def func(): 3 x=1 ...原创 2018-04-28 10:23:08 · 248 阅读 · 0 评论 -
Win10安装Python3.5
1.下载地址:https://www.python.org/2.我的是win10系统,选择Python3.5版本:3.然后在此选择对应自己电脑操作系统的版本:4.下载完成后双击打开,在如下窗口选择Add python 3.5 topath,(意思是直接把python路径直接添加到系统变量中,之后就不用手动去添加了)注意:点击install now时,会把python安装在默认路径中,在此我选择第二...原创 2018-04-26 13:14:34 · 4607 阅读 · 0 评论