![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫学习
PiLearner
这个作者很懒,什么都没留下…
展开
-
爬虫学习——为什么有代理
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封...原创 2018-07-17 11:31:36 · 1161 阅读 · 0 评论 -
爬虫 .content 和 .text 的用法区别
requests对象的get和post方法都会返回一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。.content中间存的是字节码 .text存的是.content编码后的字符串一般来说 .text直接用比较方便 返回的是字符串 但是有时候会解析不正常导致返回的是一堆乱码这时用....转载 2018-07-17 14:03:25 · 14730 阅读 · 0 评论 -
split()的用法
定义Python split() 通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则仅分隔 num 个子字符串语法str.split(str="", num=string.count(str)).str -- 分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。 num -- 分割次数。返回值返回分割后的字符串列表!!!!!!!!!!关键...原创 2018-07-17 14:39:05 · 24032 阅读 · 0 评论 -
python 的decode()方法
详见http://www.runoob.com/python/att-string-decode.html原创 2018-07-17 15:01:26 · 1157 阅读 · 0 评论