![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
crawler
文章平均质量分 77
LitaVadaski
Java&&Python learner
展开
-
Python爬虫学习笔记之requests库实战(与嵩天老师课程同步)
总结: 1.模拟浏览器访问 一些被爬取的网站在收到get请求时会检查get头部信息,默认python会设为requests库,当网站检测到这个请求是一个爬虫的时候,就会拒绝此次响应。 解决方法: 我们可以使用requests.get()的可选参数headers,将我们的请求头部模拟成一个真实的浏览器。(由于很多浏览器请求头都是mozilla/5.0)所以我们就模拟这个。 ·构造一个字典原创 2018-02-05 18:06:40 · 1072 阅读 · 0 评论 -
Python爬虫学习笔记之BeautifulSoup入门
BeautifulSoup库学习总结:简介:BeautifulSoup是用来解析html/xml的工具,我们在爬虫保存下我们需要的html文档后需要用它来进行文档的解析与信息提取工作。安装:在管理员权限下打开cmd,输入pip install BeautifulSoup4导入:from bs4 import BeautifulSoup创建BeautifulSoup对象:Soup = Beautif...原创 2018-02-07 19:41:06 · 769 阅读 · 0 评论 -
Python爬虫学习之正则表达式与Re库
正则表达式 regular expression regex RE·正则表达式是用来简介表达一组字符串的表达式·通用的字符串表达框架·简介表达一组字符串的表达式·针对字符串表达“简洁”和“特征”思想的工具·用于判断某字符串的特征归属 正则表达式在文本处理中十分常用·表达文本类型的特征(病毒,入侵等)·同时查找或替换一组字符串·匹配字符串的全部或部分正则表达式的使用编译:将符合特征正则表达式语法的字...原创 2018-02-11 22:56:12 · 316 阅读 · 0 评论