爬虫
我要糖
这个作者很懒,什么都没留下…
展开
-
python之爬虫 selenium模块(五)
我们前面的学习中都是输入固定的网址,而selenium模块会直接控制浏览器,实际点击链接并且填写登录信息,因此就像真的有用户在电脑前操作一样 selenium模块是用于Web测试的自动化的一个工具,其功能非常强大,可直接运行在浏览器中,支持大部分主流浏览器,支持自动录制动作和自动生成 一、安装及脚本编辑 安装 直接输入pip intall selenium即可(successfully) 脚本编...原创 2019-08-13 12:50:54 · 351 阅读 · 0 评论 -
python之爬虫 scrapy框架实例(八)
我们前面已经大概了解过如何新建一个scrapy框架项目,我们现在重新来整理一下思路,来练习一下我们的所学知识 演示HTML地址为:http://python123.io/ws/demo.html 文件名称为:demo.html 打开如下所示: 下面我们将来演示一下如何爬取该地址 我们回顾一下其步骤: 建立一个scrapy爬虫工程 window+r – 输入cmd – 输入scrapy st...原创 2019-08-17 16:53:10 · 252 阅读 · 0 评论 -
python爬虫之bs4内容补充及爬取大学排名(四)
我们前面提到过bs4及其一些基本用法,但是并没有涉及到真正爬取一个网页我们具体应该如何编写其代码,以及我们如何实现一个真正的例子 我们这篇就作为补充内容(涉及到与requests以及正则表达式的共同使用) 主要内容为基于bs4来进行HTML内容的遍历与编码 参考视频中国大学生慕课网-北京理工大学–python网络爬虫与信息提取视频 HTML遍历方法 HTML基本格式(HTML标签树如下所示) 我...原创 2019-08-17 12:53:45 · 302 阅读 · 0 评论 -
python之爬虫requests与scrapy比较及scrapy常用命令
我们前面学习了requests和scrapy两种方式,作为两种技术路线,我们需要知道他们的相同点和不同点,以及我们应该按情况来使用 相同点 都可以进行页面请求和爬取 可用性好,文档丰富,入门简单 不用处理js,提交表单,应对验证等功能(需要扩展才能实现) 不同点 requests scrapy 页面级爬虫 网站级爬虫 功能库 框架 并发性考虑不足 并发性好,性能较高 ...原创 2019-08-17 12:11:32 · 350 阅读 · 1 评论 -
python之爬虫 Beautifulsoup4(四)
在第一篇我们已经了解到Beautifulsoup也是作为一种在HTML页面提取信息的工具(然而这个模块比正则表达式要简单的多) 在接触Beautiful soup之前我们已经初步了解了如何将我们的Web页面保存在磁盘中,现在我们呢具体学习bs4的一些高端操作 一、安装及创建bs4对象 同样该模块用pip installl beautifulsoup4 即可 以一段代码为例: 我们先导入库 #en...原创 2019-08-13 10:44:51 · 324 阅读 · 0 评论 -
python之爬虫Re库(三)
我们在前面学习了正则表达式的基本语法,但是并没有学习如何使用这个库来爬取我们期望的信息,故这篇文章作为一个补充 Re库是Python的标准库,用于字符串的匹配 (只要安装了python的解析器,就不用额外安装) Re库的调用及基本语法 import re 正则表达式的表示类型 raw string类型(原生字符串类型) re库采用了raw string类型表示正则表达式,表示为:r’text...原创 2019-08-16 18:44:35 · 285 阅读 · 0 评论 -
python爬虫之Requests实例(二)
在学习了一大堆的基本概念啥的,可能很多人不明白怎么具体怎么写爬取代码,故我们写几个例子来巩固一下我们学的知识 爬取京东某商品页面 其链接为:https://item.jd.com/2967929.html 现在开始爬取: import requests url = "https://item.jd.com/2967929.html" try: r = requests.get(url) ...原创 2019-08-16 17:01:14 · 364 阅读 · 0 评论 -
python之爬虫 正则表达式(三)
我们已经学会了最简单的爬取工作,那就是进行内容的分析了,我们可知道分析的方法有正则表达式,Beautiful Soup,lxml 我们就先学习正则表达式 一、正则表达式(Regex) 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要 正则表达式就是用于描述这些规则的工具(即正则表达式就是记录文本规则的代码,即文本模式的一种描述方法) 其实看到这我也不知道这到底是啥/(ㄒ...原创 2019-08-11 19:04:15 · 928 阅读 · 0 评论 -
python之爬虫requests库及基本框架的建立(二)
在了解了爬虫是什么之后,抓取网页是非常重要的一部分,那么利用好库函数让自己更快更好的获得信息也是非常重要的 故我们该篇学习认识request的函数并构建抓取页面的基本框架 一、Requests库函数 requests库包含两个重要对象: request:用于请求访问 response:包含爬虫的返还内容 request对象函数类型 函数 描述 requests.get(url,p...原创 2019-08-11 16:01:02 · 634 阅读 · 0 评论 -
python之爬虫入门(一)
编程小菜今天也要踏上学习爬虫的征程啦! 对于啥都不懂的小菜看了很多大佬的博客,有点点小启发,就赶紧用小本本记下来啦 网络爬虫(Web Spider):通过网页之间的链接来层层抓取,即从某网站的一个给定的网页开始,抓取里面的内容,再在该网页中的链接中找到其它网页,直到将该网站的所有内容抓取完 在了解了爬虫是什么之后,我们呢就要来分析其最基础的工作原理 网络爬虫有三大模块:抓取,分析,存储 一、抓取...原创 2019-08-11 12:04:31 · 170 阅读 · 0 评论 -
python之爬虫scrapy框架开始一个小项目(七)
在安装了一系列的插件之后,我们就要正式踏上虫虫的幸福征程了,那么我们就先从最简单的一个项目开始吧 学过编程语言的都知道一个项目就是在一个文件夹里有不同类型的文件,其发挥的作用的也不同,就像是在HTML和CSS中,一个里面是内容,一个里面是结构,这样的话就算是很多的代码,我们也能很快找个每个部分的问题,对于需要大量的代码的程序就是很好的选择 一、搭建工程 二、 该篇文章是参考了一位大神的博客 原...原创 2019-08-14 17:50:19 · 578 阅读 · 0 评论 -
python之爬虫scrapy框架基本知识(六)
在学习了这些基本的一些知识点之后,我们就能爬取一个简单的页面了,但是如果希望我们在一堆的数据和页面中查找我们想要的就很麻烦了,故我们需要好好学习一下scrapy框架 基本知识 scrapy实际就是scrath 和python的合称,使用了Twisted异步网络库来处理网络通讯 官网网址:scrapy 安装scrapy的官网教程:安装 安装 安装可能需要用到的插件 (以下直接用pip instal...原创 2019-08-13 17:44:23 · 207 阅读 · 0 评论 -
python之爬虫 yield关键字
yield —> 生成器 是什么? 生成器是一个不断产生值得函数 包含yield语句得函数是一个生成器 生成器每产生一个值(yield语句),函数就会被冻结,被唤醒后再产生一个值 e.g. def gen(n): for i in range(n): yield i**2 输出结果为: 0 1 4 9 16 为啥要用生成器? 生成器相比一次列出所有内容的优势 更节省存储空间...原创 2019-08-17 16:53:46 · 395 阅读 · 2 评论