![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
+++allen+++
路总是走出来的
展开
-
爬虫学习笔记(1) 基本库之requsts库的使用
一. requests库的使用 (1)get方法 在requests中使用get方法请求网页,此时的请求方式是以get方式请求(常用的网页请求方式有两种:get方法和post方法),得到一个Response对象。使用status_code,text,cookies等方法可以得到返回的状态码,text类型的数据,cookies消息(作用的保存用户的登陆信息)。 import requests re...原创 2018-10-14 12:13:23 · 658 阅读 · 0 评论 -
爬虫学习笔记(2)正则表达式
在爬虫学习中,经常会用到正则表达式去匹配网页源代码中的特定字符串,例如网页链接,标题等相关信息。在处理这类问题上,正则表达式可以说是一大利器。当然在python中还有类似的较为简单的方法处理这类问题,比如beautifulsoup,pyquery,xpath等相应的库,当这些库失灵的时候,兜兜转转回到最原始的正则表达式,你蓦然回首,就会发现数据正乖巧的躺在你的数据库中。 敲黑板,说重点 正则表达式...原创 2018-11-03 16:57:41 · 220 阅读 · 0 评论 -
爬虫学习笔记(3)爬虫中常见的字符串编码问题
先来说一说编码问题的历史(不感兴趣的童鞋可以直接跳过,直接看重点部分) 由于计算机是美国人发明的,所以一开始的编码格式采用美国人制定的ASCII码,用一个字节(Byte)存储常用的英文字母和字符,前期用了128个字符,后来加入了一些欧洲国家的符号,使用的就是128-255这一段的字符,所以这时使用了256个字符。 再到后来随着计算机的普及,越来越多的国家在使用的过程中发现现有的这一套编码系统不能满...原创 2018-11-04 11:02:25 · 2716 阅读 · 0 评论