爬虫笔记
__Ike__
人人为我,我为人人
展开
-
Re库入门
Re(正则表达式)库入门一:正则表达式的语法1、正则表达式语法由字符和操作符构成P ( Y | YT | YTH | YTHO ) ? N2、正则表达式的常用操作符操作符说明实例.表示任何单个字符[ ]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a‐z]表示a到z单个字符[^ ]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符*前一个字符0次或无限次扩展abc* 表示 ab、abc、abcc、abccc等原创 2020-08-01 19:11:03 · 319 阅读 · 0 评论 -
信息提取笔记
文章目录信息提取一:信息标记的三种形式1、XML(eXtensible Markup Language)2、JSON(JavsScript Object Notation)3、YAML(YAML Ain’t Markup Language)二:三种信息标记形式的比较三:信息提取的一般方法1、方法一:完整解析信息的标记形式,再提取关键信息2、方法二:无视标记形式,直接搜索关键信息3、方法三(融合):结合形式解析与搜索方法,提取关键信息实例1、提取HTML中所有URL链接四、基于bs4库的HTML内容查找方法原创 2020-07-06 15:23:19 · 275 阅读 · 0 评论 -
Beautiful Soup库入门
文章目录Beautiful Soup库入门一:Beautiful Soup库安装1、管理员身份运行cmd 执行2、安装测试3、对Beautiful Soup库的理解二、Beautiful Soup库的基本元素1、Beautiful Soup库解析器2、BeautifulSoup类的基本元素三、基于bs4库的HTML内容遍历方法1、标签树的下行遍历2、标签树的上行遍历3、标签树的平行遍历Beautiful Soup库入门一:Beautiful Soup库安装1、管理员身份运行cmd 执行pip ins原创 2020-07-05 22:25:11 · 295 阅读 · 0 评论 -
Requests库入门笔记
文章目录Requests库入门一:安装二:使用1、Requests库的七个主要方法:2、Requests库的get()方法:requests.get(url, params=None, **kwargs)3、Response对象的属性:4、Response的编码:5、Requests库的异常:6、HTTP协议对资源的操作7、PATCH和PUT的区别:8、requests.request(method, url, **kwargs)Requests库入门一:安装requests安装:管理员身份运行cm原创 2020-07-04 21:35:16 · 174 阅读 · 0 评论