Python爬虫
文章平均质量分 64
Python伊甸园
这个作者很懒,什么都没留下…
展开
-
记一次未知原因的SSL报错
报错内容如下:SSLError: ( bad handshake: Error([('rsa routines ',INT RSA VERIFY' ,' bad signature'), (' asn1 encoding routines', 'ASN1 item verify', 'EVP lib'),( 'SSL routines ss13_ get_ server. certificate' ,certificate verify failed')],)",)报错截图如下:.原创 2021-10-28 10:19:20 · 1397 阅读 · 0 评论 -
Anaconda下安装第三方库在Spyder内无法导入的问题
在安装pythondi'san'ku原创 2021-06-20 11:26:46 · 6593 阅读 · 5 评论 -
3.Scrapy框架——CrawlSpider介绍
一、什么是CrawlSpider?Scrapy框架中分两类爬虫:1.Spider类 2.CrawlSpider类crawlspider是Spider的派生类(一个子类),CrawlSpider类定义了一些规则(rule)来提供跟进link(链接)的方便的机制,从爬取的网页中获取link并继续爬取的工作更适合。二、为什么使用CrawlSpider?1.针对有跟进机制的网页爬取非常方便2.编写容易,只需要定义爬取url规则三、如何使用CrawlSpider?1.创建爬虫项目s.原创 2021-04-10 23:02:34 · 536 阅读 · 0 评论 -
2.scrapy框架安装
一、利用conda创建虚拟环境conda create -n pc python=3.6.7二、激活虚拟环境activate pc三、安装scrapy框架pip install scrapy==1.4.0四、安装pypiwin32pip install pypiwin32原创 2021-02-27 10:48:48 · 190 阅读 · 0 评论 -
1.scrapy框架介绍
一、什么是scrapy框架?先来看字面意思:框架。一般来说,框架来源于建筑学,往往指建筑主体已经搭建好了,剩下的只是细枝末节的一些东西,比如安个门、砌一堵墙、开个窗户等等,不需要对框架本身做出大的改动。同样的,我们在编写爬虫的时候,经常做一些重复性的东西,比如:发送网络请求、数据解析、数据存储、反反爬虫机制(设置请求头等)等。所以scrapy框架就帮助我们搭建好了整个流程,最后我们只需要对这个框架做一些细小的改动即可。二、为什么使用scrapy框架(1)scrapy框架最流行(2)已原创 2021-02-27 09:48:13 · 744 阅读 · 3 评论 -
老铁,了解一下Python吗?
一、何为Python?Python是一种方便、实用、上手快的计算机程序设计语言。当然,还有一些其它的你耳熟能详的编程语言,比如巨难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编程的JavaScript语言等等。但是,这些语言的实用性都没有Python语言强。二、为什么学习Python?1.开发过程耗时短。假设你有一个需要编程来完成的任务,如果你使用C语言...原创 2019-11-26 09:36:58 · 2998 阅读 · 0 评论 -
Selenium环境的配置
什么是Selenium?Selenium相当于是一个机器人,可以模拟人类在浏览器上的一些行为,比如点击,填充数据,删除cookie等。我们可以利用这项技术来完成动态网页的爬虫。环境的配置1.下载对应浏览器的驱动。2.Python安装selenium库。以谷歌浏览器为例:(1)检查自己谷歌浏览器的版本。在谷歌浏览器地址栏输入:chrome://settings/help即...原创 2019-11-16 15:15:01 · 4550 阅读 · 0 评论 -
动态网页数据抓取
动态网页数据抓取一、网页1.传统网页:如果需要更新内容,则需要重新加载网页。2.动态网页:使用AJAX则不需要加载更新整个网页,实现部分内容更新。二、什么是AJAX?AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。理解:通过在后台与服务器进行少量数据交换【一般为post请求】,Ajax 可以使网页实现异步...原创 2019-11-15 15:49:46 · 6775 阅读 · 0 评论 -
认识生产者和消费者模式
认识生产者和消费者模式生产者和消费者是多线程中很常见的一个问题。产生数据的模块儿,我们称之为生产者,而处理数据的模块,就称为消费者。但是单单只有生产者和消费者显然还是不够的,一般来说,我们还有一个缓冲区,抽象出来的流程如下图所示。将这个过程以实际例子来说明:假如我们是一个生产辣条的厂家,我们生产出来的辣条肯定是一箱一箱地放在仓库里面,然后卖出去给消费者。【不再考虑经销商环节】1...原创 2019-11-07 21:45:16 · 3232 阅读 · 0 评论 -
线程和进程
线程和进程一、线程和进程线程是CPU调度和分派的基本单位。进程对于操作系统来说就是一个任务。听起来挺难懂的一句话,我们举一个实际例子:比如现在有一条需要被修的路,这个时候只有一个施工队要修它,假设是10天能修完;那么此时进程就是这条需要被修的路(任务),线程就是这一个施工队【单进程单线程】。如果在修这条路的时候,来了两个施工队,各修一半,此时就是多线程【多个施工队】,单进程【一...原创 2019-11-06 21:15:08 · 2761 阅读 · 0 评论 -
爬虫数据储存—CSV文件
爬虫数据储存—CSV文件一、什么是CSV文件逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。二、CSV文件特点:1.以.csv作为结尾。2.一般以逗号作为分隔符,当然也可以不是逗号。3.每一行代表一个数据,以指定的分隔符分隔。4.可以有表头,也可以没有表头...原创 2019-10-31 10:51:49 · 6201 阅读 · 1 评论 -
1.爬虫数据储存——Excel环境配置
爬虫数据储存——Excel环境配置一、python处理excel文件两种方式:1.读取excel文件当我们需要读取excel文件的时候,需要用到xlrd库。2.写出excel文件当我们需要写出excel文件的时候,需要用到xlwt库。二、xlrd库和xlwt库的安装1.在线安装(1)xlrd库的安装pip install xlrd(2)xlwt库的安装...原创 2019-10-28 21:27:50 · 2960 阅读 · 0 评论 -
8.爬虫数据提取——bs4的解析引擎介绍
爬虫数据提取——bs4的解析引擎介绍在使用requests库获取到html字符串之后,接下来我们便可以使用bs4库对其进行解析,比如:from bs4 import BeautifulSoup#content为待解析的html字符串#lxml为bs4的解析器[解析器有不同的选择]soup = BeautifulSoup(content,"lxml")在这里我们需要自行选择不...原创 2019-10-28 11:26:19 · 3085 阅读 · 0 评论 -
7.爬虫数据提取——BeautifulSoup4库
BeautifulSoup4库一、什么是BeautifulSoup4库?和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。简单来说,Beautiful Soup只是一个从html字符串提取数据的工具而已。二、性能差异?lxml 只会局部遍历,Beautiful Soup 是基于HTML DOM(...原创 2019-10-28 10:40:54 · 3016 阅读 · 0 评论 -
5.爬虫数据提取——正则表达式
爬虫数据提取——正则表达式一、什么是正则表达式?正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、正则表达式学习方式【由简单到复杂,由语法到应用】1.匹配单个字符2.匹配多个字符3.正则表达式应用实例4.正则表达式应用于htm...原创 2019-10-28 09:55:22 · 3524 阅读 · 0 评论 -
4.爬虫数据提取——lxml库的环境配置
爬虫数据提取——lxml库的安装一、什么是lxml?在我们获取html页面之后,可以使用xpath语法进行数据提取,但是,直接在获取的content里面使用xpath语法进行数据提取吗?显然不是的,获取的内容仅仅只是一个包含所有内容的html字符串,Xpath语法是无法直接作用于这样的一个字符串进行数据提取的,所以,在这里,我们需要使用lxml这样一个库对html这样的字符串进行解析,将它...原创 2019-10-21 20:58:08 · 3295 阅读 · 0 评论 -
3.爬虫数据提取——Xpath语法
爬虫数据提取——Xpath语法一、写在前面HTML页面是由标签构成的,这些标签就像整个族谱一样排列有序,比如:xxx ->> 太爷爷 ->> 爷爷 ->> 爸爸 ->> 儿子 ->> 孙子 ->> xxxxxx ->> body ->>script &div@id='wr...原创 2019-10-21 20:23:37 · 4827 阅读 · 0 评论 -
2.爬虫数据提取——Xpath环境配置
爬虫数据提取——Xpath环境配置一、什么是Xpath语法?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。简单来说,我们的数据是超文本数据,想要获取超文本数据里面的内容,就要按照一定规则来进行数据的获取,这种规则就叫做Xpath语法。二、通过规则怎样定位数据?XPath 用于在 HT...原创 2019-10-21 18:23:20 · 3588 阅读 · 0 评论 -
1.爬虫数据提取——方法总结
爬虫数据提取——方法总结在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。我们来对这三种方式做一个简单的总结:解析方式 解析速度 难度 Xpath 快 中等 bs4 慢 容易...原创 2019-10-21 16:08:06 · 4814 阅读 · 0 评论 -
4.爬虫基础——你真的了解url(网址)吗?
1.什么是URL?URL:(Uniform Resource Locator,统一资源定位符),用于定位网络上的资源,每一个信息资源在网上都有唯一的一个地址,俗称网址。比如:打开https://www.baidu.com/,就会显示如下网页。2.URL的组成?URL遵守以下的语法规则:scheme://host:port/path/?query-string=xxx#anch...原创 2019-10-20 11:14:47 · 5959 阅读 · 0 评论 -
3.爬虫基础——网络请求
网络请求1.网络请求的分类:网络请求主要有八种,如下表所示:HTTP请求 请求方式 描述 GET 发送请求来获得服务器上的资源【比如请求百度的页面】 POST 向服务器提交资源让服务器处理【比如百度云盘上传资源】 HEAD 主要用来检查资源或超链接...原创 2019-10-19 21:42:04 · 4401 阅读 · 0 评论 -
豆瓣电影影评爬取---最受欢迎的影评[xpath语法]
豆瓣电影影评爬取---最受欢迎的影评[xpath语法]1.基础环境配置:requests-->版本:2.12.4lxml-->版本:3.7.22.爬取网址:https://movie.douban.com/review/best/?start=0注意问题:(1)由于时间的不同,最受欢迎影评可能发生改变,所以爬取到的结果有可能不一致。(2)该页面仅是第...原创 2019-10-13 16:57:19 · 4695 阅读 · 1 评论 -
Python爬虫实例--新浪热搜榜[正则表达式]
Python爬虫实例--新浪热搜榜[正则表达式]1.基础环境配置:requests-->版本:2.12.4re-->:Python自带,无需安装2.网页分析很容易从html源码中看到,热搜内容在html的<a></a>标签内,热度在<span></span>标签内,我们可以利用这一点用正则表达式进行数据抓取。...原创 2019-10-13 16:23:57 · 3922 阅读 · 2 评论 -
Python爬虫实例--新浪热搜榜[xpath语法]
Python爬虫实例--新浪热搜榜[xpath语法]1.基础环境配置:requests-->版本:2.12.4lxml-->版本:3.7.22.网页分析很容易从html源码中看到,热搜内容在html的<a></a>标签内,热度在<span></span>标签内,我们可以利用这一点用xpath语法进行数据的提取。...原创 2019-10-12 13:11:41 · 3672 阅读 · 0 评论 -
谈一下Python虚拟环境
一、何为虚拟环境说虚拟环境前,我们先来谈一下Python环境,如果想编写Python代码,肯定需要Python环境,当前的Python环境也就是指Python编译器,对于windows来说,就是python.exe程序,我们需要安装官方的Python,【或者其它的编译器环境】这样才能够写Python的代码。随之而来的问题是:我的非常多的Python库怎样处理?对于一般萌新来说,我的所有的P...原创 2019-10-11 15:37:26 · 3211 阅读 · 0 评论 -
2.爬虫基础——为什么学习爬虫?
我们来解答上一次提出的问题:为什么花费这么大力气去html页面提取信息干什么?还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?第一点:个人复制粘贴的话,一个网页还好,十个网页也还行吧,但是一百个,一千个甚至更多呢?所以说,人力是不足以完成这个工作的。因此需要爬虫的参与。第二点:爬虫模拟的是人的状态。比如,我想要进行复制粘贴所有的影评信息,是不是应该按顺序打开每一个的影评页面呢?举一个...原创 2019-10-10 10:50:11 · 3091 阅读 · 0 评论 -
1.爬虫基础——了解html&什么是爬虫
众所周知:我们上网浏览的网页,他们的本质是一个又一个html页面。那什么是html呢?可以这么理解,编写JAVA有JAVA的语言逻辑,编写Python有Python的语言逻辑,编写网页就需要遵从html的语言逻辑,而编写好了的html就可以显示出来我们所看到的网页了。如下示例:图1图2正如我们在上面所看到的,当我们查看https://www.baidu.com/这个网址的时候,...原创 2019-10-10 09:37:20 · 3757 阅读 · 0 评论 -
Anaconda的虚拟环境
1.查看当前的虚拟环境命令:conda env list2.创建虚拟环境命令:conda create -n env_name python=X.X(2.7、3.6等)3.activate虚拟环境命令:activateenv_name4.关闭(退出)虚拟环境命令:deactivate5.删除虚拟环境(1)命令:conda remove ...原创 2019-10-23 22:46:59 · 4309 阅读 · 0 评论