Python
Mr___Song
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup库学习
BeautifulSoup库简介 Beautiful Soup库,也叫做beautifulsoup4或bs4库,是解析、遍历、维护“标签树”的功能库 标签简单介绍 <p>...</>:标签Tag <p class = "title">...</p> p:名称成对出现,class=xxx属原创 2019-02-27 17:31:22 · 238 阅读 · 0 评论 -
网络爬虫的限制
来源审查:判断User-Agent进行限制 检查HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问 发布公告:Robots协议 告知所有爬虫网站的爬去策略,要求爬虫遵守 Robots协议(网咯爬虫排除标准) 作用:网站告知网络爬虫那些页面可以爬取,哪些不行 形式:在网站根目录下的robots.txt文件 Robots的使用 网络爬虫:自动或者人工识别robots.txt,再进行内...原创 2019-02-27 17:35:29 · 905 阅读 · 0 评论 -
Python学习requests篇
——Requests库的7个主要方法 1.requests.request(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法 methon: 请求方式,对应get/put/post....七种 url: 模拟获取页面的url链接 **kwargs: 控制访问的参数,共13个 1.params:字典或字节序列,作为参数增加到url中 (url中?后...原创 2019-02-25 12:27:39 · 182 阅读 · 0 评论 -
信息标记与提取方法
——信息标记的三种方法 1.XML(扩展标记语言) 通过标签形式构建内容 最早的通用信息标记语言,扩展性非常好,繁琐 internet上的信息交互与传递 2.JSON(javascript 中对面向对象信息的一种表达形式) 有类型的键值对构建的信息表达 适合程序处理,比较简洁 移动应用云端和节点的信息通信,无注释 3.YAML(YAML不是一种标记语言) 无类型的键值对 Key : va...原创 2019-03-02 17:54:55 · 548 阅读 · 0 评论 -
正则表达式基本语法
-白话基本语法 符号 功能 . 匹配单个任意字符 ^ or \A ^aaa 匹配以aaa开头的字符串 $or\Z aaa$匹配已aaa作为结尾,一般情况不会单独使用,因为单独使用只是匹配这个字符串不会匹配额外的 [ ] b[aeiou]t 单个元素可为集合匹配bat\bet\bit\bot\but - 范围规范符号,[A-Z] 为A-Z之间任意元素 ^ 紧跟左...原创 2019-04-14 21:40:26 · 450 阅读 · 0 评论