python 爬虫
ChenKai_164
这个作者很懒,什么都没留下…
展开
-
Python爬虫初级(十四)—— Scrapy爬虫基础
Scrapy库不是一个简单的函数,而是一个爬虫框架。爬虫框架就是实现爬虫功能的一个软件结构和功能组件集合爬虫框架就是一个半成品,能够帮助用户实现专业网络爬虫。Scrapy爬虫框架结构“5+2”结构:Engine模块Spider模块Downloader模块ItemPipelines模块Scheduler模块下图为嵩天教授讲授爬虫课程时的Scrapy框架图截图:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wyuKncYV-1591115592471)(./原创 2020-06-03 00:33:51 · 649 阅读 · 0 评论 -
Python爬虫初级(十三)—— 水木社区论坛爬取实战
我们首先打开待爬取页面 —— 水木社区的首页:http://www.newsmth.net/nForum/#!mainpage,进入后页面如下:原创 2020-04-30 00:06:26 · 3479 阅读 · 0 评论 -
Python爬虫初级(十二)—— 新闻消息爬取实战
上一篇内容:Python爬虫初级(十一)—— Selenium 详解链接介绍我们需要爬取的链接是:https://news.qq.com/我们最终的爬取目标是将所有标题及其内容罗列出来存储为表格文档爬取过程其实这个爬虫的代码特别简单,就是使用我们前面学的 Selenium教程,下面拆分代码进行讲解:首先自然就是导入所需的所有库:from bs4 import BeautifulSo...原创 2020-04-28 10:00:16 · 393 阅读 · 0 评论 -
Python爬虫初级(十一)—— Selenium 详解
上一篇内容:Python爬虫初级(九)—— ajax 详解Selenium 库的安装Selenium 的安装比起其他 python 库的安装稍显复杂,下面对此做简要介绍:首先自然是 pip install selenium,然后我们需要安装对应的浏览器 driver,driver是什么呢,在介绍怎么安装之前,我们先看下面这两行代码:from selenium import webdrive...原创 2020-04-27 21:21:00 · 379 阅读 · 0 评论 -
Python爬虫初级(十)—— Session 和 Cookie 详解
上一篇内容:Python爬虫初级(九)—— ajax 详解Session 和 Cookie我们先介绍 Session 和 Cookie 的区别:Cookie在网站中,http 请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie 的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏...原创 2020-04-27 16:06:57 · 615 阅读 · 0 评论 -
Python爬虫初级(九)—— ajax 详解
上一篇内容:Python爬虫初级(八)—— lxml 详解及代理IP爬取ajax 介绍我们看到 ajax 这个词,大多数人都会觉得这个词和以前的不太一样,似乎听的更少了更陌生了,我们要怎么理解 ajax 呢?我们先看看它的英文全称:AJAX = Asynchronous JavaScript and XML,翻译成中文就是异步的 JavaScript 和 XML,异步也就是说,它可以在不重新加...原创 2020-04-27 14:48:18 · 937 阅读 · 0 评论 -
Python爬虫初级(八)—— lxml 详解及代理IP爬取
上一篇内容:Python爬虫初级(七)—— 丁香园评论留言板爬取前一篇文章的末尾我们提到,可以使用 lxml + xpath 提取文章内容,在这篇文章中,我们将对 lxml 与 xpath 进行详细阐述。...原创 2020-04-25 14:13:24 · 533 阅读 · 0 评论 -
Python爬虫初级(七)—— 丁香园评论留言板爬取
观察待爬取页面,判断爬取可行性上一篇内容:Python爬虫初级(六)—— 正则表达式库入门我们首先查看待爬取页面:http://www.dxy.cn/bbs/thread/626626#626626,具体形式为下图:我们查看源代码信息:可以发现留言板块的内容在页面源代码全部直接显示了出来,那么我们可以尝试直接进行爬取,我们采取的思路首先是 requests 库 + bs4 库,这两者的具体...原创 2020-04-25 11:25:48 · 1134 阅读 · 1 评论 -
Python爬虫初级(六)—— 正则表达式库入门
上一篇文章:Python爬虫初级(五)—— “中国大学排名定向爬虫”正则表达式,即 RE,是 regular expression 的简称,是用来简洁表达一组字符串的表达式。正则表达式的语法操 作 符说 明正 则 表 达 式 样 例.匹配任何字符(换行符除外)b.b[…]匹配字符组里出现的任意一个字符[abcd]*匹配前面出现的正则表达式零次或多次...原创 2020-04-22 11:08:46 · 464 阅读 · 0 评论 -
Python爬虫初级(五)—— 中国大学排名定向爬虫
实例介绍我们准备从上海交大设计的最好大学网获得大学的排名,由下面链接打开就能直接看到中国最好大学的基本信息:http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html我们要写一段程序,从网上获得大学的排名,然后以此输出,具体的功能描述就是:输入:大学排名 URL 链接输出: 大学排名信息的屏幕输出(排名, 大学名称, 总分)技术路线:...原创 2020-04-20 21:30:23 · 859 阅读 · 0 评论 -
Python爬虫初级(四)—— 信息组织与提取方法
信息标记的三种形式信息的标记:标记后的信息可形成信息组织结构,增加信息维度标记后的信息可用于通信、存储或展示标记的结构和信息一样具有重要价值标记后的信息更利于程序理解和运用国际公认的信息标记的三种形式分别是 XML、JSON、YAML,下面分别介绍这三者:XML 即 eXtensible Markup Language,采用了以标签为主来构建信息和表达信息的方式,比如:<...原创 2020-04-20 18:14:03 · 482 阅读 · 0 评论 -
Python爬虫初级(三)—— Beautiful Soup 库入门
beautiful soup 库的安装安装beautiful soup 库可以直接使用命令 pip install beautifulsoup4,安装完成之后可以通过演示 HTML 页面地址:http://python123.io/ws/demo.html 进行测试。我们打开这个网址,查询源代码,得到下面的结果:<html><head><title>This...原创 2020-04-20 10:52:21 · 398 阅读 · 0 评论 -
Python爬虫初级(二)—— Requests 网络爬虫实战
前面我们讲了网络爬虫常用库——Requests,具体可参见Python爬虫初级(一)—— Requests库入门,下面我们直接通过几个实例实现网络爬虫:实例一:京东商品页面的爬取首先我们打开京东页面选择商品:https://item.jd.com/100008348530.html,我们要做的事情是通过网络爬虫获取该商品的有关信息,该页面内容如下: 下面我们对网页进行简单爬取测试:imp...原创 2020-04-19 23:05:36 · 1006 阅读 · 0 评论 -
Python爬虫初级(一)—— Requests 库入门
requests 模块的导入request 函数的导入可以直接使用 import requests 来实现,当然,若事先没有安装可以直接在命令行输入 pip install reqeusts 来进行安装。requests 模块中包含了七个主要的方法,下面将进行一一解析和尝试调用。requests.get() 函数requests.get() 函数是一个用于向服务器构造请求资源的 Reque...原创 2020-04-19 15:09:40 · 835 阅读 · 2 评论