K童鞋的爬虫笔记
记录爬虫的那些事儿
K同学啊
“365天深度学习训练” 报名中,报名微信:mtyjkh_
展开
-
爬虫专栏目录
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com一、实战篇:实战项目一: 爬取QQ群中的人员信息二、方法篇:知识点讲解一:Xpath的介绍和用法知识点讲解二: 代理ip中的proxies知识点讲解三: 关于requests里的timeout()三、问题解决方案篇:爬虫问题一: 栈溢出(stack o...原创 2018-10-18 13:16:01 · 21461 阅读 · 0 评论 -
知识点讲解三:获取重定位后的网址
import requestsreq = req.requests.get(url)#下面是重定位后的网址req.url需要注意的是要确定网址是否有反扒措施,如果有需要针对其采取措施,否则则不会成功获取重定位后的网址...原创 2019-01-28 20:19:23 · 367 阅读 · 0 评论 -
selenium教程
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com第三方库: selenium文章目录一、简介二、安装三、一、简介我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。二、安装这里我推荐给大家的安装工具是命令行,win+R输入cmd可以快速打开命令行工具...原创 2019-01-22 16:22:09 · 3767 阅读 · 4 评论 -
实战项目二:实现CSDN自动点赞
环境: Python3.6.5编译器: Sublime Text 3代码: GitHub联系方式: ke.zb@qq.com第三方库: selenium写在前面:本文仅供参考学习,请勿用作它途。文章目录一、思路二、代码实现(一)导入第三方库(二)登录账号(三)保存cookies到文件中(四)读取并传入cookies(五)实现自动点赞三、知识点讲解一、思路在CSDN中,如果实现自动...原创 2018-11-04 17:15:38 · 23992 阅读 · 9 评论 -
实战项目三:爬取QQ群中的人员信息
文章目录一、selenium简介(一)实例说明(二)元素定位方式(三)实现滚动条自动下拉二、Xpath简介三、模拟登陆一、selenium简介我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。(一)实例说明from selenium import webdriver driver = webdriver.Chrome()driv...原创 2018-10-12 22:24:55 · 26533 阅读 · 2 评论 -
Xpath教程
1 前言本来是不打算学Xpath的,个人觉得BeautifulSoup()完全能够满足自己的爬虫需求了。但是在学Selenium是时候教程用的是Xpath,加上之前身边的小伙伴也一直在给自己安利Xpath,索性就了解一下。2 Xpath语法2.1 简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。结构关系包括 父、子、...原创 2018-06-22 19:23:05 · 27963 阅读 · 0 评论 -
知识点讲解一:代理ip中的proxies
proxiseproxies的格式是一个字典:{‘http’: ‘http://42.84.226.65:8888‘}有http与https两种,在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise,在不知道网站类型时可以将两种类型均放进去,requests会自动选择合适的proxies = { "http": &am原创 2018-08-14 22:26:33 · 26985 阅读 · 2 评论 -
知识点讲解二:关于requests里的timeout()
超时(timeout) 为防止服务器不能及时响应,大部分发至外部服务器的请求都应该带着 timeout 参数。在默认情况下,除非显式指定了 timeout 值,requests 是不会自动进行超时处理的。如果没有 timeout,你的代码可能会挂起若干分钟甚至更长时间。 连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是 connect() ),Reque...原创 2018-08-18 22:29:18 · 80582 阅读 · 13 评论 -
知识点讲解四:栈溢出(stack overflow)问题解决方案
在爬取某个网页的时候遇到了这个问题:Fatal Python error: Cannot recover from stack overflow问题所在:使用函数时递归调用次数过多(800左右会出现),导致栈溢出。在Python中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,相当于一次push压栈操作,每当函数返回,相当于一次pop出栈操作。由于栈的大小不是...原创 2018-08-21 10:41:30 · 38256 阅读 · 0 评论 -
知识点讲解五:处理js异步加载问题
前言在新闻网站中大多采用的是异步加载模式,新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据,只有当我们向下滚动时,网页的源代码才会同步更新。例如:腾讯新闻,处理这类JS异步加载的问题,这里用selenium来解决。环境Python 3.6.5需要安装的包:selenium编译器:sublime text 3代码思路导入需要用到的P...原创 2018-09-17 21:55:06 · 22487 阅读 · 1 评论