![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Eric_ariel
这个作者很懒,什么都没留下…
展开
-
使用requests与lxml爬取豆瓣正在上映电影
利用requests库与lxml解析,获取豆瓣电影展示的所有正在上映的电影。没有进行进一步详情查看。因此比较简单。所有单个正在上映电影信息以字典存储,并整合在一张列表里。整理后格式如下: [ { 'title': '反贪风暴4', 'score': '6.3', 'duration': '100分钟', 'actors': ...原创 2019-04-10 20:28:51 · 558 阅读 · 0 评论 -
使用requests库和lxml解析爬取电影天堂电影信息
使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载。快速获得最新最全电影资源!站点分析以电影天堂国内电影为例http://www.ygdy8.net/html/gndy/china/index.html分析其目录内每一个电影信息存在table中,首先我们要获取每一个电影的详情地址所有电影信息的详情链接获取通过request,获取页面源码,xpath取...原创 2019-04-11 09:55:20 · 1631 阅读 · 0 评论 -
实例带你快速入门XPath语法和lxml模块
XPath语法和lxml模块什么是XPath?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。XPath开发工具Chrome插件XPath Helper。Firefox插件Try XPath。XPath语法选取节点:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。...原创 2019-04-11 15:10:05 · 365 阅读 · 0 评论 -
用案例精讲带你快速入门BeautifulSoup4库
BeautifulSoup4库和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。Beaut...原创 2019-04-11 15:12:33 · 365 阅读 · 0 评论 -
python爬虫:多线程爬取Endgame的豆瓣短评并生成词云图
本文由于爬取了短评,未处理数据,结果中存在部分剧透!!慎读!结果展示主要通过爬取复联4豆瓣短评中前500条好评与前500条差评(因为豆瓣限制,只能爬前500条),并生成词云图:环境开发环境:Anaconda for Win 10使用库:import csvimport threadingimport requestsfrom lxml import etreefrom q...原创 2019-04-26 08:11:05 · 846 阅读 · 0 评论 -
使用queue队列容量不足程序会无限等待
Python的queue模块通过Queue函数构建队列时。可以为其设置最大容量,如果队列的大小达到了队列的上限,就会加锁,加入就会阻塞,直到队列的内容被消费掉。maxsize的值小于等于0,那么队列的尺寸就是无限制的。from queue import Queueq = Queue(3)for i in range(5): q.put(i)#阻塞,不会进入下一步。for i ...原创 2019-04-26 08:51:18 · 1584 阅读 · 0 评论