爬虫
K同学啊
“365天深度学习训练” 报名中,报名微信:mtyjkh_
展开
-
Python爬虫 - 解决动态网页信息抓取问题
作者:明天依旧可好时间:2020年7月29日联系邮箱:ke.zb@qq.com写在前面:本文仅供参考学习之用,请勿用作其他用途。1.嵌入式网页爬取举例:最常见的分页式网页这里我用天津市的信访页面来做示例,(地址:http://www.tj.gov.cn/zmhd/zmljl0524/wywtwqz/)。右键打开源码找到iframe标签,拿出里面的src地址http://zm.tj.gov.cn/gov_open/question/zero/list8a.jsp进入src中地址的页面后不原创 2020-07-29 12:05:27 · 1083 阅读 · 0 评论 -
实战项目五:抓取简书文章信息
源码:from fake_useragent import UserAgentfrom lxml import etreeimport lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_sha...原创 2019-02-09 16:36:34 · 434 阅读 · 0 评论 -
知识点讲解七:Python中的异常处理机制
异常的处理机制try: result = 4 / 0except Exception, e: print('输出异常:'+str(e))else: print("try子句没有异常,输出result结果:", result)finally: print("程序结束,无论try子句是否有异常这条语句都会被执行!&am原创 2018-09-03 17:08:47 · 11993 阅读 · 0 评论 -
知识点讲解三:获取重定位后的网址
import requestsreq = req.requests.get(url)#下面是重定位后的网址req.url需要注意的是要确定网址是否有反扒措施,如果有需要针对其采取措施,否则则不会成功获取重定位后的网址...原创 2019-01-28 20:19:23 · 367 阅读 · 0 评论 -
知识点讲解六:fake-useragent的用法
UserAgent是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent可以避免触发相应的反爬机制。fake-useragent对频繁更换UserAgent提供了很好的支持,可谓防反扒利器。下面将接受fake-useragent的安装到使用。安装在命令行中输入pip install fake-useragent即可完成安装。继续输入pip ...原创 2019-02-02 17:49:30 · 41131 阅读 · 9 评论 -
实战项目四:爬取911网站
这是我在英文取名项目中写的一份爬虫代码,今天将它整理一下分享给大家原创 2019-02-02 17:16:40 · 3549 阅读 · 0 评论 -
实战项目一:爬取西刺代理(获取代理IP)
爬虫的学习就是与反扒措施、反扒系统做斗争的一个过程,而使用代理IP是我们重要的防反扒的重要措施,代理IP的来源有两种一是你花钱去购买商家会给你提供一个接口你直接调用就可以了,二是自己在网上爬取高效IP。在这篇博客中我重点给大家讲一下如何从网上获取高效IP,我们下面的IP来源于西刺代理,这是我很久之前写的一篇博客,今天来进行“翻新”一番希望可以帮助到大家。安装必要的第三方库BeautifulSo...原创 2019-02-02 16:29:08 · 3806 阅读 · 0 评论 -
selenium教程
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com第三方库: selenium文章目录一、简介二、安装三、一、简介我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。二、安装这里我推荐给大家的安装工具是命令行,win+R输入cmd可以快速打开命令行工具...原创 2019-01-22 16:22:09 · 3767 阅读 · 4 评论 -
实战项目二:实现CSDN自动点赞
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com第三方库: selenium写在前面:本文仅供参考学习,请勿用作它途。文章目录一、思路二、代码实现(一)导入第三方库(二)登录账号(三)保存cookies到文件中(四)读取并传入cookies(五)实现自动点赞三、知识点讲解一、思路在CSDN中,如果实现自动...原创 2018-11-04 17:15:38 · 23995 阅读 · 9 评论 -
爬虫中的代理问题
文章目录一、前言二、User-Agent(一)什么是User-Agent(二)获取随机User-Agent与使用三、代理ip(一)代理IP的获取(二)代理IP的使用(三)IP的检验四、如何应付网站的反扒系统一、前言最近身边很多人都遇到爬虫中的代理问题,写下这篇博客来记录自己所学,希望可以帮助到你们。可能很多人都会问为什么我需要用代理呢?不用不可以吗?用了代理之后发现爬虫抓取数据的速度反而下降...原创 2018-10-24 21:02:58 · 15779 阅读 · 0 评论 -
爬虫专栏目录
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com一、实战篇:实战项目一: 爬取QQ群中的人员信息二、方法篇:知识点讲解一:Xpath的介绍和用法知识点讲解二: 代理ip中的proxies知识点讲解三: 关于requests里的timeout()三、问题解决方案篇:爬虫问题一: 栈溢出(stack o...原创 2018-10-18 13:16:01 · 21461 阅读 · 0 评论 -
实战项目三:爬取QQ群中的人员信息
文章目录一、selenium简介(一)实例说明(二)元素定位方式(三)实现滚动条自动下拉二、Xpath简介三、模拟登陆一、selenium简介我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。(一)实例说明from selenium import webdriver driver = webdriver.Chrome()driv...原创 2018-10-12 22:24:55 · 26534 阅读 · 2 评论 -
知识点讲解五:处理js异步加载问题
前言在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。环境Python 3.6.5需要安装的包:selenium编译器:sublime text 3代码思路导入需要用到的P...原创 2018-09-17 21:55:06 · 22487 阅读 · 1 评论 -
知识点讲解四:栈溢出(stack overflow)问题解决方案
在爬取某个网页的时候遇到了这个问题:Fatal Python error: Cannot recover from stack overflow问题所在:使用函数时递归调用次数过多(800左右会出现),导致栈溢出。在Python中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,相当于一次push压栈操作,每当函数返回,相当于一次pop出栈操作。由于栈的大小不是...原创 2018-08-21 10:41:30 · 38256 阅读 · 0 评论 -
爬虫代理
前言花了几天时间写了一个比较完整的爬虫代理模块,基本上实现了一个比较完整的代理系统。有如下几大模块:ip的获取模块检验及删除更新requests循环请求ip的获取ip来源:http://www.xicidaili.com/wt/ 通过遍历西刺代理中的四个页面获取ip,然后对ip有效性进行检验,将有效的ip写入文件。这里需要注意一下,西刺代理有效的ip一般都在前面,...原创 2018-08-19 17:21:44 · 13911 阅读 · 0 评论 -
知识点讲解二:关于requests里的timeout()
超时(timeout) 为防止服务器不能及时响应,大部分发至外部服务器的请求都应该带着 timeout 参数。在默认情况下,除非显式指定了 timeout 值,requests 是不会自动进行超时处理的。如果没有 timeout,你的代码可能会挂起若干分钟甚至更长时间。 连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是 connect() ),Reque...原创 2018-08-18 22:29:18 · 80583 阅读 · 13 评论 -
知识点讲解一:代理ip中的proxies
proxiseproxies的格式是一个字典:{‘http’: ‘http://42.84.226.65:8888‘}有http与https两种,在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise,在不知道网站类型时可以将两种类型均放进去,requests会自动选择合适的proxies = { "http": &am原创 2018-08-14 22:26:33 · 26985 阅读 · 2 评论 -
Xpath教程
1 前言本来是不打算学Xpath的,个人觉得BeautifulSoup()完全能够满足自己的爬虫需求了。但是在学Selenium是时候教程用的是Xpath,加上之前身边的小伙伴也一直在给自己安利Xpath,索性就了解一下。2 Xpath语法2.1 简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。结构关系包括 父、子、...原创 2018-06-22 19:23:05 · 27963 阅读 · 0 评论