python
hkds0512
这个作者很懒,什么都没留下…
展开
-
正则匹配规则
正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行python中要使用正则表达式做匹配,需要先导入re模块。如:import re #第一步导入模块#第二步 编写代码正则规则::匹配前一个字符零到多次,属于贪婪匹配+:匹配前一个字符大于等于1...原创 2019-07-18 14:04:25 · 518 阅读 · 0 评论 -
re模块的常用函数
re模块使python语言拥有全部的正则表达式功能,本篇主要介绍python中re模块常用的函数使用方法search()函数search()函数浏览全部字符串,匹配第一个符合规则的字符串,未匹配则返回None语法:search(pattern,string,flags=0)#pattern:要匹配的正则表达式#string:要匹配的字符串#falgs:匹配模式,用于控制正则表达式的匹...原创 2019-07-18 15:31:18 · 859 阅读 · 0 评论 -
爬虫的基本流程
爬虫的基本流程发起请求通过http库向目标站点发起请求,也就是发送一个request,请求可以包含额外的header等信息,等待服务器响应获取响应内容如果服务器能正常响应,会得到一个response,response的内容便是所要获取的页面内容,类型可能是http,json字符串,二进制数据(图片或者视频)等类型解析内容得到的内容可能是html,可以用正则表达式,页面解析库进行解析,可...原创 2019-07-18 17:05:09 · 679 阅读 · 0 评论 -
python第三方模块requests模块
requests库,让http服务人类。requests库的作用就是请求网站获取网页数据。让我们从简单的实例开始讲解requests库的使用方法。import requestsres = requests.get(‘https://www.baidu.com/’)print(res)print(res.text)运行结果如下:这时打开Chrome浏览器,进入https://www.ba...原创 2019-07-18 17:58:34 · 187 阅读 · 0 评论 -
BeautifulSoup库的应用
beautifulSoup库,是一个非常流行的python模块。通过BeautifulSoup库可以轻松地解析Requests库请求的网页,并把网页源代码解析为Soup文档,以便过滤提取数据。import requestsfrom bs4 import BeautifulSoupheaders = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; Win...原创 2019-07-19 11:05:41 · 544 阅读 · 0 评论