爬虫
pure water
这个作者很懒,什么都没留下…
展开
-
requests库
requests 爬虫应用一般使用两种方法:1.requests.get(url,**k) 获取网页2.requests.header(url,**k) 获取网页头信息HTTP 基于请求与响应、无状态的应用层协议,使用url为HTTP定位网络资源的标志,k为控制访问可选参数,有params字典或字节序列,作为参数加入到URL中data字典、字节序列或文件...原创 2018-12-01 10:35:45 · 120 阅读 · 0 评论 -
盗亦有道
网络爬虫的限制:1.通过user_agent 对发送请求的协议来源进行筛选,来决定是否允许访问。(可以通过在requests.get()的可选参数中更改headers来解除此项限制,实现访问)2.发布公告:ROBOTS协议,该协议可以通过网页地址+/robots.txt观察到,是否允许访问,如果大规模对数据量进行爬取,而不遵守协议,会有法律风险。类人行为可以不遵守协议,爬取数据量小,并且出...原创 2018-12-01 10:42:45 · 155 阅读 · 1 评论 -
爬虫小实例
1.网页信息爬取import requeststry: kv={'user-agent': 'Mozilla/5.0'} url='http://www.baidu.com/' r=requests.get(url,headers=kv) r.raise_for_status() r.encoding=r.apparent_encoding pr...翻译 2018-12-01 11:18:02 · 105 阅读 · 0 评论 -
正则表达式
最近要做一个爬虫的小软件,然后开始学习一些基础知识,然后做点小笔记吧。正则表达式——用一种简洁的形式实现文本匹配,比如说有一组字符串‘PN’ ‘PYN’ ‘PYTN’ ‘PYTHN’'PYTHON’可以使用P(Y|YT|YTH|YTHO)?N‘PYYYYY…’有一到无穷多个Y,可以使用PY+进行表示举完例子以后言归正传,正则表达式相当于提取出了这组字符串的特征,用这些特征来进行字符串匹配...原创 2018-12-09 15:25:20 · 231 阅读 · 0 评论 -
Beautiful Soup库的基本使用
学习爬虫的小笔记,希望能和大家一起进步哈。爬虫爬一般都是网页信息,beautifulsoup能够使用html.parse对网页信息进行解析,一个beautifulsoup对应一个网页的内容,就是使用requests(url)返回的对象的text。下面讲一下beautifulsoup的几个基本元素:举几个例子说明一下吧。tag是带有<>…</>标签的一段内容,比如我...原创 2018-12-09 16:06:14 · 189 阅读 · 0 评论