爬虫
我要用代码向我喜欢的女孩表白
已经换工作了,现在在某家安全公司打工。
又换工作了,现在在某金融公司打工
马上失业了,还要还房贷,要饿死了,大家可以私聊联系我,进行投喂,谢谢
展开
-
xpath获取第1个以后的所有标签内容
经常会在爬虫去标题时使用,之前写过,但是同事问我, 我没有从博客中收录,最后从代码中找到了才发给了他,所以这次补充到博客中。拿table标签举例(xpath中的内容)"table/tr[position()>1]"...原创 2021-09-26 18:06:24 · 847 阅读 · 2 评论 -
爬虫xpath明明在页面能够解析到,但是在代码却解析不出来
解决方式,使用xpath解析后的element对象,打印一下(结果是源码的形态)。不要以页面为准,而要以源码为准(右键查看源代码)排错方式:打印element代码 string = etree.tostring(table, encoding='utf-8').decode('utf-8') print(string)1.图中tr是在tbody里面,但是代码获取不到,显示没有这个节点2.但是在源码上却是叫table..原创 2021-09-16 10:25:22 · 4804 阅读 · 2 评论 -
Scrapy爬虫 回调函数 传递参数
这么简单个东西,网上翻了许多,内容质量都偏低,于是自己也遇到了这个问题,就写篇博客发一下。问题:我要用使用回调函数,传递当前的结果,交给下一个parse进行爬取和解析在你要回调函数的后面加一个参数 meta={"字典key",你要传递的值}在回调后的函数中的,采用 response.meta["字典key"] 获取,你的值...原创 2021-09-15 17:04:31 · 268 阅读 · 0 评论 -
Python对xpath二次解析,解析结果为空[]
解决方案将红色部分改成绿色部分,去掉/原因:因为通过xpath第一次解析出来的结果是一个elements(他自带的类型)第二次解析的时候还是使用的是"/" ,那就是错误的,因为它的意思代表的是根目录解析(只对第一次转成html有效果)xpath的elements对象进行解析时,不用加 / 解析,直接解析就行...原创 2021-09-15 16:35:24 · 903 阅读 · 0 评论 -
xpath解析超方便的工具
我写了爬虫,我每次需要xpath解析,都得运行代码,看看自己的结果是什么。那我就得点2次,还得程序跑起来,会浪费我几秒钟。但是,自从我数据组的爬虫小伙伴,给我提供了个工具,从此便给我带来了开红色法拉利的解析感觉。今天就把这个工具分享给大家。xpath helper打开google浏览器,【点击】右上角的插件。按钮,接下来在下滑的弹窗中【点击】管理拓展程序点击左下角的商店在搜索框中输入xpath helper,并且回车选择这个,并且点击他添加至google插...原创 2021-08-26 17:27:54 · 432 阅读 · 0 评论 -
scrapy代理池-爬取
首先去买一个代理,根据厂家提供的api,去封装成一个springBoot服务(当然flask,等任何都可以)。请求就能返回一个代理ip(如果你不会可以去参考我以前的博客,在我的博客中搜springBoot或者flask就有相关的封装资料-以前买过的是阿布云的代理)完成上述后,我们就开始。首先安装faker(一个模拟数据的框架)编写python代码import fakerimport requestsclass ProxyMiddleware(object): # .原创 2021-08-26 14:37:12 · 505 阅读 · 0 评论 -
python xpath提取标签内的所有内容(scrapy版本)
解决方案table_body = html.xpath('/html/body/table[2]/tbody/tr//td')先获取总的,然后先取含td外表的数据 keys=r.xpath('text()') 在取含标签的数据 vs=list(r.xpath('a/text()'))具体案例:需求:提取td中的所有内容,但是用text()方法提取不到a标签中的内容。 def parse2(...原创 2021-08-26 12:40:49 · 2891 阅读 · 0 评论 -
scrapy爬取网站子链接(含爬虫入门教程)
首先,这是我第一次用scrapy在工作中,以前用过requests,但是那种小级别的东西,不适合网站级爬取,太慢了。先说需求吧:https://rpmfind.net/linux/RPM/Groups.html爬这个网站里的每一条。点开一条再爬里面的每一条点开右边的一条,在爬里面的一条总之就是爬3次,啪啪啪。先不要慌张,先想一下思路。我想用队列+爬虫的形式将A爬完的结果存放到A队列中,A队列有多个消费者,进行消费,对每一个队列进行爬取。并且组装...原创 2021-08-26 11:39:41 · 3698 阅读 · 0 评论