网络爬虫
文章平均质量分 83
陈其淼
这个作者很懒,什么都没留下…
展开
-
Scrapy 框架
Scrapy 是一个基于 Twisted 的异步处理框架,是纯 Python 实现的开源爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。自定义 Item Pipeline 很简单,每个 Item Pipeline 组件都是一个独立的 Python 类,该类中的 process_item 方法必须实现,每个 Item Pipeline 组件都需要调用 process_item 方法。原创 2023-06-12 19:53:42 · 2707 阅读 · 0 评论 -
requests 库的使用
Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。requests 模块比 urllib 模块更简洁。原创 2023-05-28 22:30:39 · 282 阅读 · 0 评论 -
爬虫基本原理
简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。原创 2020-03-22 00:31:35 · 258 阅读 · 0 评论 -
Web网页基础
不同类型的元素通过不同类型的标签来表示,如图片用img标签表示,视频用video标签表示,段落用p标签表示,它们之间的布局又常通过布局标签div嵌套组合而成,各种标签通过不同的排列和嵌套就可以形成网页的框架。虽然HTML定义了网页的结构,但是只有HTML页面的布局并并不美观,为了让网页看起来更好看一些,这里就需要借助CSS了。综上所书,HTML定义了网页的内容和结构,CSS描述了网页的布局,JavaScript定义了网页的行为。CSS是目前唯一的网页页面排版样式标准,有了它的帮助,页面才能更加的美观。原创 2020-03-04 18:20:33 · 493 阅读 · 1 评论 -
HTTP基本原理
在百度、淘宝等大型网站的首页中,URL的开头都会由http或https,这个就是访问资源需要的协议类型,有时候我们还会看到ftp、sftp、smb开头的URL,这里的ftp、sftp、smb也都是指协议类型。超文本,其英文名称为Hypertext,我们在浏览器里看到的网页就是超文本解析而成的,其网页源代码是一系列的HTML代码,里面包含了一系列标签,比如img显示图片,p指定显示段落等等。在爬虫中,我们可以根据状态码来判断服务器的响应状态,如状态码200,则证明成功返回数据,在进一步的处理,否则直接忽略。原创 2020-03-04 14:23:51 · 423 阅读 · 1 评论