![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 95
在猴站学知识
这个作者很懒,什么都没留下…
展开
-
网页数据的存储--存储为文本文件(TXT、JSON、CSV)
用解析器解析出数据后,接下来就是存储数据了。数据的存储有多种多样,其中最简单的一种是将数据直接保存为文本文件,如TXT、JSON、CSV等。这里就介绍将数据直接保存为文本文件。原创 2024-02-23 23:57:32 · 1604 阅读 · 0 评论 -
网页数据的解析提取(parsel库的使用)
前面,我们已经介绍了Xpath库和Beautiful Soup库(支持css选择器)来提取页面信息。它们有各自的优缺点,那可不可以取长补短呢?当然可以,parsel库就是结合Xpath和css选择器两种方式来提取网页信息。同时,Python爬虫有一个最流行的Scrapy框架,parsel就是它的底层支持。了解了它,后面学习Scrapy选择器的用法就非常方便了!!!原创 2024-02-23 15:42:11 · 1077 阅读 · 0 评论 -
多任务爬虫(多线程和多进程)
在一台计算机中,我们可以同时打开多个软件,例如同时浏览网页、听音乐、打字等,这是再正常不过的事情。但仔细想想,为什么计算机可以同时运行这么多软件呢?这就涉及计算机中的两个名词:多进程和多线程。同样,在编写爬虫程序的时候,为了提高爬取效率,我们可能会同时运行多个爬虫任务,其中同样涉及多进程和多线程。一、多线程的概念说起多线程,就不得不先说什么是线程。说起线程,又不得不先说什么是进程。进程可以理解为一个可以独立运行的程序单位,例如打开一个浏览器,就开启了一个浏览器进程;原创 2024-02-22 23:52:55 · 1594 阅读 · 1 评论 -
Python高级进阶--多线程爬取下载小说(基于笔趣阁的爬虫程序)
本帖将详细演示爬取笔趣阁中的一本小说,将其下载到本地。内容详实,代码详解。对爬虫感兴趣的小伙伴们和新手小白都可进入学习!学会之后,可以爬取自己感兴趣的小说内容!!!原创 2024-02-11 22:55:13 · 3077 阅读 · 1 评论 -
网站常见的反爬手段及反反爬思路
摘要:介绍常见的反爬手段和反反爬思路,内容详细具体,明晰解释每一步,非常适合小白和初学者学习!!!原创 2024-02-19 22:39:47 · 1941 阅读 · 0 评论 -
网页数据的解析提取(XPath的使用----lxml库详解)
在提取网页信息时,最基础的方法是使用正则表达式,但过程比较烦琐且容易出错。对于网页节点来说,可以定义id、class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在解析页面时,利用XPath或CSS选择器提取某个节点,然后调用相应方法获取该节点的正文内容或者属性,就可以提取我们想要的任意信息了。在Python中,如何实现上述操作呢?原创 2024-02-20 23:02:36 · 1465 阅读 · 0 评论 -
爬虫基本库的使用(requests库的详细解析)
前面,我们了解了urllib库的基本用法(其中,确实又不方便的地方。例如处理网页验证和Cookie时,需要写Opener类和Handler类来处理。另外实现POST、PUT等请求时的写法也不太方便。为了更加方便地实现这些操作,产生了更为强大的库----requests。有了它,Cookie、登录验证、代理设置更加方便。(request库是爬虫请求网页最为常用的库!!!因为它更加方便!!!哇,今天又是深爱Python的一天!!!原创 2024-02-21 16:31:15 · 1123 阅读 · 0 评论