爬虫学习（二）

最新推荐文章于 2023-09-22 09:33:06 发布

lol_xker

最新推荐文章于 2023-09-22 09:33:06 发布

阅读量270

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/lol_xker/article/details/50898087

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

学习爬虫两天，基本都是跟着静觅 » Python爬虫学习系列教程分享的代码和教程学习，由于安装版本不同，原作者的是python 2.7，我的则是python 3.4

总的来说就是碰到一些不兼容的用法，也根据别人的提供的办法基本解决掉了，今天碰到的则是在练习爬取糗事百科段子时的问题，一直没解决掉，个人认为

是正则匹配的问题，贴上部分代码，以供参考，晚上回宿舍再找答案。

pattern = re.compile('<div.*?author clearfix>.*?<a.*?<img.*?>.*?</a>.*?<a.*?>.*?<h2>(.*?)</h2>.*?content>(.*?)<!--(.*?)-->.*?</div>(.*?)<div class=stats-vote>.*?number>(.*?)</i>.*?number>(.*?)</i>',re.S)
items = re.findall(pattern, content)
print(items)
for item in items:
    haveImg = re.search("img", item[3])
    from datetime import datetime
    if not haveImg:
        print(item[0],item[1], item[2], item[4],item[5])

URL = 'http://www.qiushibaike.com/hot/page/'

最终的结果是没报错，但是也没输出任何结果，一片空白。

后面自己在其中添加了 print (items) 这行代码,是想输出初步正则匹配后的内容，结果输出 [ ]

有点不理解，正则表达式也是根据最新的页面代码做出一些更改，但是貌似没有效果，继续学习。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lol_xker

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python 爬虫学习资料.zip

11-12

Python爬虫学习资料是一个丰富的资源集合，旨在帮助初学者和有经验的开发者深入理解Python爬虫技术。Python作为一门简洁且强大的编程语言，是网络爬虫领域的首选工具，因其易于学习且拥有众多相关的库和框架。一、...

最详细的python爬虫入门教学，一篇入门爬虫不是儿戏（视频分享）

zihong523的博客

06-26

791

很多人问学了python能做什么？能找到什么工作 python应用范围非常广泛，几乎所有都能做；最常见的就是web和爬虫了；往后就是人工智能和数据分析了。这里时间有限我就不多说了；今天我们就来说说爬虫吧。 python入门基础，从0到1，爬虫教学：关注小编，帮忙转发，私聊关键词“资料”。一，首先爬虫的基本流程是什么？二、爬虫能抓取什么样的数据？三、认识urllib库 urllib是用于获取网络资源的库，python3自带。初学爬虫者，主要是掌握urllib库中request模块的一堆函数功能。.

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫超详细讲解（零基础入门，小白也都看的懂）

xx16755498979的博客

02-28

1665

01 什么是爬虫？网络爬虫，其实叫作网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。归纳为四大步：根据url获取HTML数据；解析HTML，获取目标信息；存储数据；重复第一步这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言，并不需要掌握这么多。

爬虫入门教程（非常详细）从零基础入门到精通，看完这一篇就够了

wly55690的博客

07-05

5960

相比其他静态编程语言（如java、c#与c++）Python抓取网页文档的接口更简洁，而对比其他动态脚本语言（如perl，shell）Python的urllib包提供了较为完整的访问网页文档的API。Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

Python爬虫教程（非常详细）从零基础入门到精通，看完这一篇就够了

xx16755498979的博客

02-28

1万+

对于绝大多数想要学习Python的朋友而言，爬虫绝对是学习Python的最好的骑手和入门方式。我当时选择Python学习，也是瞄准了Python爬虫，因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都可以成功。一、正确认识Python爬虫Python爬虫？为什么会叫爬虫？我第一次听到这个名字的时候也是蛮疑惑的。从字面上理解的话，爬虫就是一只只虫子在爬来爬去，所以就叫爬虫？

超级简单的Python爬虫入门教程(非常详细)，通俗易懂，看一遍就会了

最新发布

02-29

Python爬虫学习代码在IT领域，Python爬虫是一种广泛使用的工具，用于自动化地从互联网上获取大量数据。Python语言以其简洁的语法和丰富的库支持，成为开发爬虫的理想选择。本篇将深入探讨Python爬虫的基础知识，...

python小爬虫学习思路讲解

05-18

### Python小爬虫学习思路详解 #### 一、引言在互联网时代，数据成为企业和个人最为宝贵的资源之一。Python作为一种强大的编程语言，在数据抓取领域有着广泛的应用。本篇文章将详细解读如何利用Python进行简单的...

完整网络爬虫学习ppt

09-18

第二章爬虫原理和网页构造第三章我的第一个爬虫程序第四章正则表达式第五章 lxml库和xpath语法第七章数据库存储第八章多进程爬虫第九章异步加载第十章表单交互和模拟登陆第十一章 Selenium模拟浏览器...

python爬虫学习笔记.zip

12-30

Python爬虫学习笔记在IT领域，Python爬虫是一种常用的技术，用于自动化地从互联网上抓取大量数据。Python语言因其简洁的语法和丰富的库支持，成为开发爬虫的首选工具。本篇将深入探讨Python爬虫的相关知识点，帮助...

基于C#.NET的家庭理财系统v1.0

02-22

基于C#.NET的家庭理财系统v1.0，使用VS2010开发平台打开。使用SQL Server数据库。界面设计美观大方。

最完全的基于C#的网络爬虫

04-07

C#实现完全的网络爬虫，详细的设计，详细的源代码分析，不看后悔，不看后悔啊

基于C#.NET的高端智能化网络爬虫

10-15

样例实现，抓取携程所有城市酒店信息,包括城市，酒店地址等。

网络爬虫基础个人学习笔记

04-04

寒假自学爬虫总结整理的笔记,大约3万字,内容涵盖数据的采集存储 Scrapy爬虫框架等.请使用Markdown编辑器浏览,若有不足,请留言

python爬虫入门教程(非常详细)

程序员小麦的博客

07-10

8964

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

「爬虫教程」吐血整理，最详细的爬虫入门教程

qq_46094651的博客

03-15

6380

官方中文文档：requests应该是用Python写爬虫用到最多的库了，同时requests也是目前Github上star✨最多的Python开源项目。requests在爬虫中一般用于来处理网络请求；首先我们需要导入requests模块；接着我们尝试向baidu发起请求；1状态码，200即为请求成功页面Html5代码# 返回请求状态码，200即为请求成功# 返回页面代码# 对于特定类型请求，如Ajax请求返回的json数据。

如何自学Python爬虫？零基础入门教程

zihong523的博客

12-17

2706

如何自学Python爬虫？在大家自学爬虫之前要解决两个常见的问题，一是爬虫到底是什么？二是问什么要用Python来做爬虫？爬虫其实就是自动抓取页面信息的网络机器人，至于用Python做爬虫的原因，当然还是为了方便。本文将为大家提供一份详细的新手入门教程，带大家从入门到精通Python爬虫技能。一、爬虫是什么？网络爬虫又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者。它是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序。其

爬虫大全：从零开始学习爬虫的基础知识，小白也能学

z099164的博客

09-22

3223

爬虫是一种自动获取网站信息的技术，它可以帮助我们快速地抓取海量网站数据，进行统计分析、挖掘和展示。本文旨在为初学者详细介绍爬虫的基础知识，包括：爬虫原理、爬虫分类、网页结构分析、爬虫工具和技能、爬虫实践示范，以及如何绕过反爬虫机制等内容，让你轻松入门、快速提升。

Python爬虫学习：XPath解析HTML实战——好段子爬取

"学习爬虫，理解XPath，以及在HTML中解析数据的方法，通过实例操作讲解XPath的常用路径表达式，并介绍如何在浏览器中安装XPath插件进行辅助定位。" XPath，全称为XML Path Language，是一种在XML（以及HTML）文档中...