爬虫
一加一等于小可爱
这个作者很懒,什么都没留下…
展开
-
初次学习urllib的使用
urllib的使用urllib.request模块urllib.parseurllib.request模块版本python2:urllib2、urllibpython3:把urllib和urllib2合并,urllib.request常用方法urllib.request.urlopen(“网址”) 作用:向网站发起一个请求并获取响应字节流 = response.read()字符串 = response.read().decode(“utf-8”)urllib.request.Reque原创 2020-06-22 16:44:44 · 330 阅读 · 0 评论 -
如何使用urllib模块保存XX.html
要求是:1. 请输入你要搜索的内容:乘风破浪的姐姐2. 保存到本地文件import urllib.requestimport urllib.parse# 拼接URLbaseurl = 'https://www.baidu.com/s?'name = input('请输入你要搜索的内容:')# 进行urlencode()编码wd = {'wd':name}name = urllib.parse.urlencode(wd)url = baseurl + nameheaders =原创 2020-06-22 16:40:10 · 514 阅读 · 0 评论 -
URL的简单介绍
URL是统一资源定位符(Uniform Resource Locator)的简称。作用:在Internet上的Web服务器中,每一个网页文件都有一个访问标记符,用于唯一标识它的访问位置,以便浏览器可以访问到。例如:https://new.qq.com/omn/TWF20200/TWF2020032502924000.html协议:https主机名:new.qq.com端口号:80,端口号在new.qq.com后面,表示为:new.qq.com:80。80可以省略资源路径:TWF20200/TWF原创 2020-05-18 09:36:43 · 873 阅读 · 0 评论 -
几个概念(POST和GET等)
GET和POSTGET:查询参数都会在URL上显示出来POST:查询参数和需要提交数据是隐藏在form表单里面的,不会在URL地址上显示出来例子:我们用百度搜索“python”,查看源代码(怎么查看元代码可以看此博客https://blog.csdn.net/qr39hh/article/details/106179234)这里使用的是GET方法,URL上有显示出参数。使用有道翻译翻译“博客”,参数没有显示在URL中。...原创 2020-05-17 19:38:26 · 319 阅读 · 0 评论 -
爬虫简单介绍
通信协议端口我们想要进行数据通讯分几步?找到对方IP数据要发送到对方指定的应用程序上。为了标识这些应用程序,所以给这些网络应用程序都用数字进行了标识。为了方便称呼这个数字,我们将它叫做端口。这里的端口,我们一般都叫做逻辑端口。定义通讯规则。这个通讯规则我们一般称之为协议。通讯协议国际组织定义了通用的通信协议TCP/IP协议所谓协议就是指计算机通信网络中两台计算机之间进行通信所...原创 2020-04-28 19:51:22 · 238 阅读 · 0 评论