爬虫
不会玩csdn
这个作者很懒,什么都没留下…
展开
-
一些反爬虫的常见措施以及应对方案
以下代码python语法为例子:headers 请求头中检测检测referer :用户上一次访问的网页,以判断访问流程是否符合正常人的访问逻辑'referer':'https://dig.chouti.com/'检测cookie(session) :cookie 中带有用户的个人信息认证,网页后端可以以此判定是否为人为爬取。有时这也会被当作反爬虫的一种措施,例如抽屉新热榜目前(19.05...原创 2019-05-30 20:09:01 · 3019 阅读 · 0 评论 -
scrapy框架概述以及案例讲解
基本介绍引擎(EGINE)引擎负责控制系统所有组件之间的数据流,并在某些动作发生时触发事件。有关详细信息,请参见上面的数据流部分。调度器(SCHEDULER)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL的优先级队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址下载器(DOWLOADER)用于下载网页内容, 并将网页内容返...原创 2019-06-04 16:10:54 · 349 阅读 · 0 评论 -
爬虫实战:多线程+BS4+requests秒爬取猫眼电影前100
最近在自学爬虫,参考网上的教材学习了下,自己进行了优化,有不足的地方请各位指教。完整源码github地址:https://github.com/JonathanRowe/Spider首先我们先明确一下思路:1.获取网页内容。2.解析网页内容,过滤我们需要的数据。3.保存为文本。4.多线程运行以上123内容。先引入一下我们会用到的模块import requestsimport pa...原创 2019-03-20 15:58:10 · 1033 阅读 · 0 评论 -
正则表达式基础语法
正则表达式常见匹配模式模式 描述\w 匹配字母数字及下划线\W 匹配非字母数字下划线\s 匹配任意空白字符,等价于 [\t\n\r\f].\S 匹配任意非空字符\d 匹配任意数字,等价于 [0-9]\D 匹配任意非数字\A 匹配字符串开始\Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串\z 匹配字符串结束\G 匹配最后匹配完成的位置\n 匹配一个换行符\...原创 2019-05-11 10:21:43 · 295 阅读 · 0 评论 -
Tesseract 图像识别
安装pip install tesseract识别图像 – 在图像路径下自动生成一个a.txttesseract a.png a 查看命令tesseracr -h查看所有语言 tesseract --list-langs原创 2019-07-18 14:31:01 · 717 阅读 · 0 评论 -
scrapy 下载器中间件+【反爬虫】下载管道、代理池的自定义
Request 和Response解析在这里插入代码片随机请求头的设置middlewares.pyimport randomclass UserAgentDownloadMiddlware(object): USER_AGENT = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gec...原创 2019-07-21 18:12:41 · 346 阅读 · 0 评论 -
scrapy异步向mysql插入数据
我们采用twisted给我们提供的adbapi下的connectionpool连接池,把插入数据的动作丢进连接池里,这样往数据库插入数据的效率会相对高一点pipelines.pyimport pymysqlfrom twisted.enterprise import adbapifrom pymysql import cursorsclass JianshuTwistedPipeline...原创 2019-06-22 21:08:05 · 608 阅读 · 0 评论 -
爬虫面试题(转载)
https://blog.csdn.net/weixin_42260204/article/details/81462148转载 2019-06-14 18:19:25 · 192 阅读 · 0 评论 -
Xpath+lxml语法详解
xpath语法:使用方式:使用//获取整个页面当中的元素,然后写标签名,然后再写谓词进行提取。比如://div[@class='abc']需要注意的知识点:/和//的区别:/代表只获取直接子节点。//获取子孙节点。一般//用得比较多。当然也要视情况而定。contains:有时候某个属性中包含了多个值,那么可以使用contains函数。示例代码如下://div[contains(@c...原创 2019-05-31 17:25:49 · 685 阅读 · 0 评论 -
分布式爬虫调度(redis)
原创 2019-09-04 23:49:45 · 301 阅读 · 0 评论