Python爬虫技术
文章平均质量分 86
以实际例子,讲解Python爬虫方面的详细的技术细节和使用感悟!
阿智智
思考,思考,再思考!
展开
-
书《Python web scraping》第二版中构建网站代码出现AttributeError:pretty_link错误之解决
1 问题描述最近在第三遍阅读《Python web scraping: fetching data from the web》第二版,发现与该书籍配套的专门用于爬虫练习的网站http://example.webscraping.com已不能访问。点击该网址会自动重定向到一个github网址上,其包含了构建http://example.webscraping.com网站所需的源代码。按照其上提示的方法构建、部署http://example.webscraping.com,在web2py框架的web IDE中原创 2021-04-02 11:47:15 · 662 阅读 · 3 评论 -
利用Selenium配合Chromedriver爬取一个带输入框、选择框和提交按钮的基于AJAX的网页
目录1 介绍2 爬虫代码及其详细解释3 代码运行结果4 总结1 介绍阅读书籍《Python Web Scraping: fetching data from web》1第二版的113页例子时,心情激动,被Selenium的功能所吸引,遂写此博文加以总结。该书上例子直接运行会出错,因为其针对的网页网址已变动。本博文给出的例子已进行相关的修正,那么本博文相比较该书的例子有哪些特色呢?包含以下几点:修正了要爬取的网页的网址。这是正确爬虫的关键。使用的第三方浏览器Chromedriver,因为在Windo原创 2020-08-24 18:54:13 · 1313 阅读 · 0 评论 -
Selenium配合chromedriver爬取网页pythonscraping.com/pages/javascript/ajaxDemo.html遇到的问题记录
1 介绍Selenium是最初用于网站测试的工具,现在广泛用于网络爬虫。配合某个浏览器工具,其能自动加载网页,获取所需的数据,也能获取网页快照和判断某个事件是否在网站上发生。利用urllib.request.urlopen、或者requests.get()等方法爬取网页有一个不适用的场景是:当网页是一个JavaScript驱动时。这时得到的是预加载的内容,而不是自己真正想要的内容。如果此时,我们用浏览器手工看到的网页内容,将会与爬取的html代码不一致。在这种情况下Selenium能大显身手。Sele原创 2020-08-23 10:51:17 · 974 阅读 · 0 评论 -
利用BeautifulSoup的find_all()函数查找某个标签且该标签某属性不出现
介绍HTML代码如下:<ul class="sf-r-list"> <li> <a href="/book/77" class="sc-list-cover fl"> <img class="ba_page_prvimg" onload="baImgCenter(this)" badt_outwidth="" src="https://wqxuetang.oss-cn-beijing.aliyuncs.com/cover/0/0/77/77.jpg!m"原创 2020-08-20 12:06:22 · 3500 阅读 · 1 评论 -
爬取新闻网页中的<P>的匹配问题
问题描述爬取新闻网页,HTML代码如下:<div id=ozoom style="ZOOM: 100%"><founder-content><P> 上图:1953年3月11日,我国第一座自动化的炼铁炉——鞍山钢铁公司第8号炼铁炉开始出铁了。铁水经过化验,质量很好。这是开始出铁时,冶金部门的领导同志、苏联专家等正在参观的情形。</P>....看到上述新闻主体内容写入到<P></P>中,我在爬虫代码中匹配时写的仍然是大写原创 2020-08-17 12:26:49 · 648 阅读 · 1 评论 -
BeautifulSoup.select(selector)函数中参数的选择表达式的书写方法(CSS选择器)二则
1 介绍使用BeautifulSoup从网页中抓取自己需要的信息,有两种常用的方法:使用 find()或者find_all()方法,很方便,很容易直接定位到自己所需要的信息;使用select(selector)方法,能起到与方法1同样的效果。方法2相比较方法1,有一个优点是:当我们写一个通用的爬虫类时,亦即该类爬虫方法代码与网页中的具体的标签无关(同一内容在不同的网页中具体的标签是千变万化的),允许我们将不同网页的信息定位抽象出来(亦即,允许我们书写一个CSS选择器)。下面给出两个书写CSS选原创 2020-08-17 21:33:58 · 2193 阅读 · 1 评论 -
写CSS选择器时标签的class属性值中有空格的问题
1 问题描述HTML代码片段为:<div class="alert alert-warning"> 请至“随书下载”下载本书的示例程序。</div><div class="book-intro readmore"> 本书通过正在学习机器学习的程序员绫乃和她朋友美绪的对话,结合回归和分类的具体问题,逐步讲解了机器学习中实用的数学基础知识。其中,重点讲解了容易成为学习绊脚石的数学公式和符号。同时,还通过实际的Python 编程讲解了数学公式的应用,进而加深读原创 2020-08-18 08:07:56 · 4900 阅读 · 2 评论 -
Scrapy-1-1-0rc3中的sel.xpath()已被Scrapy-2.3-0中的response.xpath()所替代
介绍最近看了些中英文的爬虫书,基本上都是2017年左右出版的,里面讲解的有关Scrapy的命令、代码等的用法已经运行不通了。我通过查询和阅读Scrapy-2.3-0的帮助文档,发现已经它们已经被新的命令所替代了。这说明Scrapy的版本更新比较快,并且接口的变动也比较快。其中,关于在Scrapy 1.1.0版本中,scrapy shell命令下,利用xpath()方法的接口发生了变化:#mermaid-svg-LSmLWubsLAmJ5mOq .label{font-family:'trebuchet原创 2020-08-19 11:27:33 · 255 阅读 · 0 评论