染~Lover-CSDN博客

原创 Python之网络爬虫学习记录簿（5）

继续码解析库，BeautifulSoup简称BS是另一个功能强大的解析库，也是笔者比较喜欢用的（虽然大多数网页爬取用CSS或者XPath更方便）解析库之BeautifulSoup

2020-06-23 17:51:16 93

原创 Python之爬虫学习记录簿（4）

提取页面信息还有更强大更方便的工具—解析库。解析库之XPath1，XPath简介，详见官网：XPath概览，推荐pip安装pip install lxml2，常用规则：表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点. .选取当前节点的父节点@选取属性3，实例：...

2020-06-23 11:54:21 103

基本库更完了，更一下re，当然只是用于提取信息的简略内容。re官方文档：re文档常用方法1，match()—尝试从字符串起始位置匹配正则表达式，如果匹配，返回匹配成功的结果，否则返回None。.*匹配任意尽可能多的字符，.*?匹配尽可能少的任意字符。2，search()—扫描整个字符串，返回第一个匹配成功的结果。3，findall()—搜索整个字符串，返回匹配的所有内容。4，sub()—替换文本中所有符合规则的字符串5，compile()—可以将正则字符串编译成正则表达式对象，这个方法也是在

2020-06-22 18:14:06 86

原创 Python之爬虫学习记录簿（2）

基本库之requests继续写另一个更好用的基本库—requestsrequests不是内置库，需要额外安装。推荐用pip 安装：命令行键入：pip install requests一，基本用法1，代码示例：import requestsr = requests.get('https://www.baidu.com')即可完成最基本的请求。2，代码示例：import requestsdata = {'name':'xy', 'age':'18'

2020-06-22 09:50:02 79

原创 Python之爬虫学习记录簿

作为python爬虫初学者，想用用笔记记录一下学到的知识点，毕竟书看完就吃灰，还是得习惯电子笔记才是。内容简略，仅供参考。基本库之urllib爬虫的学习从模拟浏览器向服务器发起请求开始，python支持丰富的类库帮助我们完成请求。python3支持urllib库，官方链接：urllib一，发送请求1.代码示例：import urllib.requestresponse = urllib.request.urlopen('请求的URL')这样就完成了最简单的请求，接下来就可以进行提取信息等操

2020-06-21 13:07:15 119

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

m0_46322724的博客

原创 Python之网络爬虫学习记录簿（5）

原创 Python之爬虫学习记录簿（4）

原创 Python之爬虫学习记录簿（3）

原创 Python之爬虫学习记录簿（2）

原创 Python之爬虫学习记录簿

空空如也

空空如也