python爬虫知识
文章平均质量分 72
moll_77
这个作者很懒,什么都没留下…
展开
-
urllib库在python2与python3中的区别
python2与python3中会有一些语法的不同。python3是python2的升级版,在python2中,有urllib库与urllib2库,但是在python3中,都合并到urllib库中。此篇博客主要介绍了python2与python3在urllib库使用时的不同原创 2017-11-20 14:16:37 · 6564 阅读 · 0 评论 -
正则表达式
正则表达式就是描述字符串排列的一套规则。主要是用于字符串的匹配。在python中,一般我们会使用re模块实现python正则表达式的功能。此文章我们会为大家介绍正则表达式如何去写,我们将分别从原子、元字符、模式修正符、贪婪模式与懒惰模式等方面介绍。1.原子原子是正则表达式中最基本的组成单位。每个正则表达式中至少要包含一个原子,常见的原子有以下几类:1)普通字符作为原子2)非原创 2017-11-29 20:33:20 · 296 阅读 · 0 评论 -
爬虫程序中-代理服务器的设置
我们知道,很多网站上现在都装有反爬虫程序。当我们在爬取某一网站的时候,如果被网站中的反爬虫程序识别,那么我们可能就会进入"黑名单”,会被该网站服务器所屏蔽。如何很好的解决这个问题呢,如果显示的ip地址不是本机ip地址,而是代理服务器的ip地址。那么就有效的解决了这个问题。接下来,我们来介绍如何在python爬虫中,使用代理服务器。方法1:可以在互联网中搜索对应得代理服务器地址。这里我们原创 2017-11-22 20:33:56 · 2034 阅读 · 1 评论 -
python爬虫时http协议以及实现代码
http协议请求主要分为6种类型,各类型的主要作用如下:1)get请求:get请求会通过url网址传递信息,可以直接在url中写上要传递的信息,也可以由表单进行传递。如果使用表单进行传递,这表单中的信息会自动转为url地址中的数据,通过url地址传递。2)post请求:可以向服务器提交数据,是一种比较主流也比较安全的数据传递方式,比如在登录时,经常使用post请求发送资源。3)put请原创 2017-11-22 19:06:48 · 672 阅读 · 0 评论