![](https://img-blog.csdnimg.cn/20200505165559813.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python网络爬虫
网络爬虫技术的使用经验
洪博hopes
分享与热爱 本人绝不设置 VIP 文章,如有被系统设置成 VIP 可读,请联系本人更改。
展开
-
python网络爬虫实战之一:爬虫初体验
1.【网络爬虫】初体验关于什么是【网络爬虫】及它的相关应用我已经在一篇文章里写过了(浅谈【网络爬虫】)那这里我们就不多说,直接开始学习python【网络爬虫】的使用,其实学习【网络爬虫】之前最好还是需要有H5的相关知识的,毕竟我们大多需要爬取的信息都存在于网页上,不过影响也不大,毕竟H5也是比较好理解的。那接下来我们讲一下,在使用python【网络爬虫】之前需要配置的一个模块–requests,“模块”这个东西我们肯定很清楚了,它相当于一个可以完成特定功能的一个工具,像是过河需要用的船,打电话需要用的手原创 2020-06-01 17:16:52 · 630 阅读 · 0 评论 -
浅谈python【网络爬虫】
【网络爬虫】如果python基础知识学的差不多了,那么用【爬虫】来练手是一个即简单又富有成就感的方式了;那么我们先简单聊聊【网络爬虫】是一个什么东西?1.什么是【网络爬虫】?MBA智库百科写道:“网络爬虫又名‘网络蜘蛛’,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。”看完可能还是不太懂对吧?那我们做一个比喻:我们知道互联网或者说因特网是可原创 2020-05-27 13:51:26 · 530 阅读 · 0 评论 -
爬虫基本功之爬取豆瓣top250电影信息
不知道具体因为啥,任何一个培训爬虫的机构在入门阶段都喜欢教大家爬豆瓣,可能昨为一个简单的静态网页,可以让初学者从中找到信心,所以我也写了一个简单的爬虫代码,另加了些许注释,代码如下:(需要requests,lxml库)# 爬取豆瓣电影信息# *电影名# *评分# *链接# 第一步:导入第三方库import csvimport lxml.htmlimport req...原创 2018-09-06 08:54:22 · 669 阅读 · 0 评论 -
xpath爬取过程出现不规则数据的解决方法
在今天使用xpath库爬取boss直聘济南在找职位的信息时,遇到了一个获取列表元素溢出的情况,具体是什么样的问题,我下面贴图来看一下。大家注意观察这两个职位信息,几乎信息都是规则分布的,但在公司规模信息那里却出现了不规则现象,当然这些不规则也会体现在html代码中。大家可以看到,html代码块中的不规则现象不利于我们对信息的提取,如果我们采用下面的方法硬获取,就会报出列表溢出的错误。s...原创 2018-10-03 20:32:40 · 4186 阅读 · 0 评论