Python爬虫
文章平均质量分 75
Python爬虫
落花雨时
守破离,断舍进。
展开
-
http和https协议
一、什么是http和https协议HTTP协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收HTML页面的方法。服务器端口号是80端口。 HTTPS协议:是HTTP协议的加密版本,在HTTP下加入了SSL层。服务器端口号是443端口。二、在浏览器中发送一个http请求的过程:当用户在浏览器的地址栏中输入一个URL并按回车键之后...原创 2019-08-13 08:37:28 · 144 阅读 · 0 评论 -
Python爬虫 urllib库
一、urllib库urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。二、urlopen函数:在Python3的urllib库中,所有和网络请求相关的方法,都被集到urllib.request模块下面了,以先来看下urlopen函数基本的使用:from urllib import requestre...原创 2019-08-13 09:11:02 · 113 阅读 · 0 评论 -
Python爬虫 cookie以及相关操作
一、什么是cookie:在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判...原创 2019-08-13 10:38:13 · 1089 阅读 · 0 评论 -
Python爬虫 requests库
一、requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。安装和文档地址:利用pip可以非常方便的安装:pip install requests中文文档:http://docs.python-request...原创 2019-08-13 17:43:53 · 677 阅读 · 0 评论 -
Python爬虫 xpath
一、什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。二、XPath开发工具Chrome插件XPath Helper。 Firefox插件Try XPath。三、XPath语法 3.1 选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集...原创 2019-08-13 20:13:48 · 162 阅读 · 0 评论 -
Python爬虫 lxml库
一、lxml库lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。lxml python 官方文档:http://lxml.de/index.html需要安装C语言库,可使...原创 2019-08-14 09:36:39 · 442 阅读 · 0 评论 -
Python爬虫 BeautifulSoup4库
一、BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Be...原创 2019-08-14 17:28:10 · 170 阅读 · 0 评论 -
Python爬虫 正则表达式
正则表达式和re模块:什么是正则表达式:通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式。标准答案:https://baike.baidu.com/item/正则表达式/1700215?fr=aladdin一个段子:世界是分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的。正则表达式常用匹配规则:匹配某个字符串:text = '...原创 2019-08-15 10:32:09 · 200 阅读 · 0 评论 -
Python爬虫 json文件处理
json文件处理:什么是json:JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率...原创 2019-08-15 17:22:15 · 697 阅读 · 0 评论 -
Python爬虫 MySql数据库
MySQL数据库操作安装mysql:在官网:https://dev.mysql.com/downloads/windows/installer/5.7.html 如果提示没有.NET Framework框架。那么就在提示框中找到下载链接,下载一个就可以了。 如果提示没有Microsoft Virtual C++ x64(x86),那么百度或者谷歌这个软件安装即可。 如果没有找到。那么...原创 2019-08-15 17:24:17 · 271 阅读 · 0 评论 -
Python爬虫 多线程爬虫
多线程爬虫有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率。线程是在同一时间需要完成多项任务的时候实现的。最简单的比喻多线程就像火车的每一节车厢,而进程则是火车。车厢离开火车是无法跑动的,同理火车也可以有...原创 2019-08-16 15:17:27 · 142 阅读 · 0 评论 -
Python爬虫 动态网页爬取
动态网页数据抓取什么是AJAX:AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是XML语法...原创 2019-08-17 09:14:33 · 258 阅读 · 0 评论 -
Python爬虫 图像验证码识别
图形验证码识别技术:阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一定的技术壁垒(需要大量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很高的商业价值...原创 2019-08-17 10:15:57 · 145 阅读 · 0 评论