- 博客(5)
- 收藏
- 关注
原创 Python之网络爬虫学习记录簿(5)
继续码解析库,BeautifulSoup简称BS是另一个功能强大的解析库,也是笔者比较喜欢用的(虽然大多数网页爬取用CSS或者XPath更方便)解析库之BeautifulSoup
2020-06-23 17:51:16 93
原创 Python之爬虫学习记录簿(4)
提取页面信息还有更强大更方便的工具—解析库。解析库之XPath1,XPath简介,详见官网:XPath概览,推荐pip安装pip install lxml2,常用规则:表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点. .选取当前节点的父节点@选取属性3,实例:...
2020-06-23 11:54:21 103
原创 Python之爬虫学习记录簿(3)
基本库更完了,更一下re,当然只是用于提取信息的简略内容。re官方文档:re文档常用方法1,match()—尝试从字符串起始位置匹配正则表达式,如果匹配,返回匹配成功的结果,否则返回None。.*匹配任意尽可能多的字符,.*?匹配尽可能少的任意字符。2,search()—扫描整个字符串,返回第一个匹配成功的结果。3,findall()—搜索整个字符串,返回匹配的所有内容。4,sub()—替换文本中所有符合规则的字符串5,compile()—可以将正则字符串编译成正则表达式对象,这个方法也是在
2020-06-22 18:14:06 86
原创 Python之爬虫学习记录簿(2)
基本库之requests继续写另一个更好用的基本库—requestsrequests不是内置库,需要额外安装。推荐用pip 安装:命令行键入:pip install requests一,基本用法1,代码示例:import requestsr = requests.get('https://www.baidu.com')即可完成最基本的请求。2,代码示例:import requestsdata = {'name':'xy', 'age':'18'
2020-06-22 09:50:02 79
原创 Python之爬虫学习记录簿
作为python爬虫初学者,想用用笔记记录一下学到的知识点,毕竟书看完就吃灰,还是得习惯电子笔记才是。内容简略,仅供参考。基本库之urllib爬虫的学习从模拟浏览器向服务器发起请求开始,python支持丰富的类库帮助我们完成请求。python3支持urllib库,官方链接:urllib一,发送请求1.代码示例:import urllib.requestresponse = urllib.request.urlopen('请求的URL')这样就完成了最简单的请求,接下来就可以进行提取信息等操
2020-06-21 13:07:15 119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人