爬虫
展希希鸿
主要研修计算机视觉方向
展开
-
python爬虫之正则表达式及开源许可证的爬取
- 通过正则表达式可以定义一些匹配规则,只要满足匹配规则即认为匹配成功,从而实现模糊匹配。- 正则表达式中既可以包含普通字符,也可以包含由特殊字符指定的匹配模式。- 在实际应用正则表达式进行匹配时,正则表达式中的普通字符需要做精确匹配,而特殊字符指定的匹配模式则对应了用于模糊匹配的规则。常用的匹配模式 我们通常在用于表示正则表达式的字符串前加上一个字符r,使得后面的字符串忽略转义符。例如,对于字符串'\\bfoo\\b',我们可以写作...原创 2020-05-09 22:13:07 · 463 阅读 · 1 评论 -
Python爬虫之Beautiful Soup库及大学排名爬取
Beautiful Soup库是解析、遍历、维护“标签树”的功能库。Beautiful Soup库也叫beautifulsoup4 或 bs4。但主要还是用BeautifulSoup类,约定引用方式如下:from bs4 import BeautifulSoupimport bs4Beautiful Soup库解析器soup = BeautifulSoup('<html>data</html>','html.parser')bs4的HTML解析器Beau...原创 2020-05-08 23:57:53 · 465 阅读 · 0 评论 -
python爬虫之之Requests库使用以及网络视频图片的爬取和存储
通常我们上网是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。例如我们通过浏览器谷歌搜索某个内容便是向浏览器提交请求,然后下载网页代码将该请求解析成网页呈现。而爬虫就是模拟我们浏览器发送请求的过程,并根据自己设置的爬取规则提取有用的数据最终将数据放在数据库或文件中。互联网中最有价值的便是数据,比如淘宝的商品信息,各大求职网站上的职位信息等等。这些...原创 2020-05-07 21:56:54 · 1412 阅读 · 0 评论