2020年06月_YungJZ

原创网络请求（一）

urlencode函数：编码urlencode可以把字典数据转换为URL编码的数据。from urllib import parsedata = {'name':'老王','age':18,'greet':'hello world'}qs = parse.urlencode(data)print(qs)#name=%E8%80%81%E7%8E%8B&age=18&greet=hello+worldparse_qs函数：解码可以将经过编码后的url参数进行解码pri

2020-06-29 11:55:46 158

原创爬虫基础

Http协议：Http协议介绍：Http协议：全称是HyperText Transfer Protocol，中文意思是超文本传输协议，是一种发布和接收HTML（HyperText Markup Language）页面的方法。服务器端口号是80端口。 2. HTTPS协议：是HTTP协议的加密版本，在HTTP下加入了SSL层。服务器端口号是443端口。更多介绍请参考：https://baike.baidu.com/item/HTTPURL详解：URL是Uniform Resource Locat

2020-06-29 10:48:34 105

原创 urllib基础

urllretrieve（网址，本地文件存储地址）直接下载到本地info() 查看网页简介信息 getcode() 返回网页爬取的状态码geturl（）获取当前访问的网页Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块urlopen关于urllib.request.urlopen参数的介绍：.

2020-06-27 22:03:57 555

原创正则表达式

详细介绍：https://www.runoob.com/regexp/regexp-tutorial.html函数：match 从第一个开始匹配，第一个不匹配退出search 不一定从第一个开始全局匹配：格式： re.compile(“正则表达式”).findall(“数据”)实例：匹配网址：string = <a href = 'http://www.baidu.com'>百度首页</a>pat = "[a-zA-Z]+://[^\s]*[.com|.cn]"

2020-06-26 11:30:26 133

原创 python——异常处理

以下为简单的try…except…else的语法：try:<语句> #运行别的代码except <名字>：<语句> #如果在try部份引发了'name'异常except <名字>，<数据>:<语句> #如果引发了'name'异常，获得附加的数据else:<语句> #如果没有异常发生try的工作原理是，当开始一个try语句后，python就在当前程序的

2020-06-25 18:18:08 127

原创 python学习——文件操作

打开文件open(name[, mode[, buffering]])在目录之间用“/”或“\\”,单个“\”会被理解为转义符例子：open(“D:exercise/work”)或open(“D:exercise\\work”)name : 一个包含了你要访问的文件名称的字符串值。mode : mode 决定了打开文件的模式：只读，写入，追加等。所有可取值见如下的完全列表。这个参数是非强制的，默认文件访问模式为只读®。buffering : 如果 buffering 的值被设为 0，就不会有

2020-06-25 16:46:44 387

原创 python学习——python模块

模块一般在两个地方：lib和site-packages模块安装几种方法：1.pip（网络安装）2.whl下载安装，进入下载的whl文件的目录内，pip install 文件名，https://www.lfd.uci.edu/~gohlke/pythonlibs/3.直接复制（电脑相关配置和python版本对应）4.anaconda...

2020-06-24 22:53:57 83

读书郎