爬虫
文章平均质量分 69
ohbaby别叫我程序猿
这个作者很懒,什么都没留下…
展开
-
工具ffmpeg下载安装及环境变量的配置
找到win64进行下载,找到你下载安装的路径,然后就可以开始配置环境变量了。系统变量中创建一个FFMPEG_HOME,对应值设置为你安装的路径。然后打开命令窗口输入ffmpeg --version点击回车。点击进入出现下方这个页面。打开环境变量编辑设置。原创 2022-09-26 19:46:26 · 412 阅读 · 0 评论 -
python爬虫-HTML基础(简单实用)
X-UA-Compatible这个是IE8特有的,知道即可,因为做前端的同学都很害怕IE因为他们问题比较多各个版本问题很诡异,当IE8的时候微软想把各个版本的统一,那么这个参数就出现了,他为了向下兼容,如下的代码如果使用IE8的时候他会以IE7的模式运行。关键字的作用一般是让爬虫之类的收录程序,当他们在爬你的网站的时候,如果你有关键字,那么他们会优先把关键字收录到他们的记录中,比如百度如果他们收录之后,他们搜索你的关键字的时候,就能找到咱们的网站。1、在当前文件中写Css样式。.........原创 2022-08-02 16:50:08 · 1706 阅读 · 0 评论 -
python爬虫-爬虫基础(简单实用)
深层网络爬虫的基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等。聚焦网络爬虫的基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成。通用网络爬虫的基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。........原创 2022-08-03 21:38:39 · 272 阅读 · 0 评论 -
python爬虫基础知识-开发者工具
Chrome开发者工具 简称 DevTools,是一组网页制作和调试的工具,内嵌于 Google Chrome 浏览器中。Chrome 开发者工具非常重要,所蕴含的内容也是非常多的,熟练使用它能让你更加深入地了解浏览器内部工作原理。...原创 2022-08-06 15:53:15 · 446 阅读 · 0 评论 -
python爬虫基础-http/https协议
2:服务器将这份数字证书发送给客户端,因为客户端也认可证书机构,客户端可以通过数字证书中的数字签名来验证公钥的真伪,来确保服务器传过来的公开密钥是真实的。1:服务器的开发者携带公开密钥,向数字证书认证机构提出公开密钥的申请,数字证书认证机构在认清申请者的身份,审核通过以后,会对开发者申请的公开密钥做数字签名,然后分配这个已签名的公开密钥,并将密钥放在证书里面,绑定在一起。协议部分:该URL的协议部分为“http:”,这代表网页使用的是HTTP协议。锚部分:从“#”开始到最后,都是锚部分。.........原创 2022-08-06 16:56:33 · 601 阅读 · 0 评论 -
python爬虫基础-request请求头
### 请求头#### 常见的请求头信息1. accept:浏览器通过这个头告诉服务器,它所支持的数据类型2. Accept-Charset: 浏览器通过这个头告诉服务器,它支持哪种字符集3. Accept-Encoding:浏览器通过这个头告诉服务器,支持的压缩格式4. Accept-Language:浏览器通过这个头告诉服务器,它的语言环境5. Host:浏览器通过这个头告诉服务器,想访问哪台主机6. If-Modified-Since: 浏览器通过这个头告诉服务器,缓存数据的时间7.原创 2022-08-06 19:07:22 · 3081 阅读 · 0 评论 -
python爬虫基础-response响应头
405 用来访问本页面的 HTTP 谓词不被允许(方法不被允许)503 f服务不可用。这个错误代码为 IIS 6.0 所专用。502 Web 服务器用作网关或代理服务器时收到了无效响应。406 客户端浏览器不接受所请求页面的 MIME 类型。501 页眉值指定了未实现的配置。200 OK,客户端请求已成功。505 HTTP 版本不受支持。407 要求进行代理身份验证。206 部分数据请求成功。500 内部服务器错误。203 非权威性信息。...原创 2022-08-06 19:18:43 · 1737 阅读 · 0 评论 -
python爬虫基础-CSS选择器(简单好学)
全称:Cascading Style Sheet 语言,属于标记语言CSS3中的3表示版本号。原创 2022-08-06 19:42:58 · 2949 阅读 · 2 评论 -
python爬虫基础-xpath的使用(简单好用)
我们从使用函数的过程中得到结论,就是有的函数不支持,有的支持,那问题来了,到底哪些函数支持呢。我们在lxml官网找到了答案。lxml 支持XPath 1.0 ,想使用其他扩展,使用libxml2,和libxslt的标准兼容的方式。XPath 1.0官方文档 以及其他版本的XPath文档 https://www.w3.org/TR/xpath/除此之外,lxml还提供了自定义函数的方式来扩展xpath的支持度 https://lxml.de/extensions.html。......原创 2022-08-06 22:08:23 · 651 阅读 · 0 评论 -
python爬虫-基本原理(简单好学)
爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.sina.com.cn/原创 2022-08-08 14:17:43 · 353 阅读 · 0 评论