自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Python之网络爬虫学习记录簿(5)

继续码解析库,BeautifulSoup简称BS是另一个功能强大的解析库,也是笔者比较喜欢用的(虽然大多数网页爬取用CSS或者XPath更方便)解析库之BeautifulSoup

2020-06-23 17:51:16 93

原创 Python之爬虫学习记录簿(4)

提取页面信息还有更强大更方便的工具—解析库。解析库之XPath1,XPath简介,详见官网:XPath概览,推荐pip安装pip install lxml2,常用规则:表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选取当前节点. .选取当前节点的父节点@选取属性3,实例:...

2020-06-23 11:54:21 103

原创 Python之爬虫学习记录簿(3)

基本库更完了,更一下re,当然只是用于提取信息的简略内容。re官方文档:re文档常用方法1,match()—尝试从字符串起始位置匹配正则表达式,如果匹配,返回匹配成功的结果,否则返回None。.*匹配任意尽可能多的字符,.*?匹配尽可能少的任意字符。2,search()—扫描整个字符串,返回第一个匹配成功的结果。3,findall()—搜索整个字符串,返回匹配的所有内容。4,sub()—替换文本中所有符合规则的字符串5,compile()—可以将正则字符串编译成正则表达式对象,这个方法也是在

2020-06-22 18:14:06 86

原创 Python之爬虫学习记录簿(2)

基本库之requests继续写另一个更好用的基本库—requestsrequests不是内置库,需要额外安装。推荐用pip 安装:命令行键入:pip install requests一,基本用法1,代码示例:import requestsr = requests.get('https://www.baidu.com')即可完成最基本的请求。2,代码示例:import requestsdata = {'name':'xy', 'age':'18'

2020-06-22 09:50:02 79

原创 Python之爬虫学习记录簿

作为python爬虫初学者,想用用笔记记录一下学到的知识点,毕竟书看完就吃灰,还是得习惯电子笔记才是。内容简略,仅供参考。基本库之urllib爬虫的学习从模拟浏览器向服务器发起请求开始,python支持丰富的类库帮助我们完成请求。python3支持urllib库,官方链接:urllib一,发送请求1.代码示例:import urllib.requestresponse = urllib.request.urlopen('请求的URL')这样就完成了最简单的请求,接下来就可以进行提取信息等操

2020-06-21 13:07:15 119

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除