爬虫
文章平均质量分 73
空城za
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【爬虫基础】正则表达式和re模块
目录:什么是正则表达式正则表达式语法单字符串匹配匹配多个字符串精确匹配与泛匹配贪婪匹配与非贪婪匹配开始和结束语法转义字符和原生字符串re模块中常用函数matchsearchgroup分组findallsubsplitcompile 什么是正则表达式 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。 标准解释:https://baike.baidu.com/item/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F/1700215?原创 2022-05-12 23:55:44 · 346 阅读 · 0 评论 -
【爬虫基础】CSS选择器,XPath选择器
目录XPath什么是XPath?XPath开发工具XPath节点XPath语法案例总结CSS选择器案例标签选择器类选择器ID选择器属性选择器伪类选择器组合选择器 XPath 什么是XPath? xpath(XML Paht Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Fiefox插件Try XPath XPath节点 在XPath中,有7类节点:元素,属性,文本原创 2022-05-10 23:21:18 · 950 阅读 · 0 评论 -
【爬虫基础】requests库
requests库requestsrequests 关键字参数响应体常见的方法和属性cookiesession 会话维持处理不受信任的SSL证书 requests 虽然python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好 requests 是用python编写,基于urllib,但是比urllib更加方便 requests 关键字参数 method: 请求方法 url: 请求网址 headers:请求头字段 cookies:用户身份标识 pro原创 2022-05-10 16:58:43 · 382 阅读 · 1 评论 -
【爬虫基础】urllib库
urllib: 自带的库 1.了解urllib库 2.熟悉掌握urllib库 3.熟悉urllib.request,处理cookie 代理设置 urllib常用库urlliburloppen()urlretrieve()urlencode(), quote(), parse_qs()urlparse(), urlsplit()request.Request类ProxyHandler()cookiehttp.CookieJar模块 urllib """ urllib库是python中一个最基本的网络请求库。可原创 2022-05-10 09:48:17 · 231 阅读 · 0 评论
分享