![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 77
害死猫的酒馆
这个作者很懒,什么都没留下…
展开
-
常见的反爬策略汇总
1. 限制IP地址单位时间的访问次数2. 用户登录才能访问网站内容, 若识别为爬虫账号,封禁IP3. header, User-Agent检查用户所用客户端的种类和版本, 在请求头中加入CSRF_token识别用户请求(参考form表单验证)4. Referer, 检查请求由哪里来,通常可以做图片的盗链判断5. Cookies,检测Cookie中session_id 的使⽤用次数,如果超过...原创 2019-01-17 14:12:05 · 2274 阅读 · 0 评论 -
hadoop3.X 安装实践
一、ssh免密登录1、测试是否能免密登录# ssh localhostThe authenticity of host 'localhost (::1)' can't be established.2、设置免密登录1)、去掉 /etc/ssh/sshd_config中的两行注释,如没有则添加,所有服务器都要设置的:#RSAAuthentication yes #Pu...原创 2019-07-17 15:05:28 · 203 阅读 · 0 评论 -
xlwt生成Excel文件
xlwt导出Excel基本原理workbook工作薄的概念我们必须要明确,其是我们工作的基础。与下文的sheet相对应,workbook是sheet赖以生存的载体。workbook = xlwt.Workbook()sheet我们所有的操作,都是在sheet上进行的。sheet = workbook.add_sheet(‘table_message’,cell_overwr...原创 2019-06-29 16:03:29 · 1590 阅读 · 0 评论 -
学习记录, 带你玩转Pyppeteer (全干货)
别只用 Selenium,新神器 Pyppeteer 更强大!现在大多数人在使用模拟浏览器进行数据获取的时候, 用的都是Selenium .以至于现在很多网站已经对它做了很多针对性的反爬(比如检测浏览器的webdriver属性). 而Pyppeteer 作为一个新的工具在绕过这些反爬措施中表现的很好. 本文借鉴了部分'原创: 崔庆才 进击的Coder, 别只用 Selenium,新神器 P...原创 2019-06-15 10:19:16 · 12025 阅读 · 2 评论 -
BeautifulSoup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.-----引入官网地址的一句话 1.1 安装 Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或...原创 2019-06-06 19:48:49 · 217 阅读 · 0 评论 -
mongo 的垮库与批量操作
批量更新db.getCollection('JRCP_XYK_WAK_ALL').find({}).forEach( function(item){ db.getCollection('JRCP_XYK_WAK_ALL').update({"_id":item._id},{$set:{"STATUS_": "1"}}) })垮库...原创 2019-05-25 19:12:49 · 233 阅读 · 0 评论 -
MYSQL的update的高级用法
MYSQL的update多个表的UPDATE操作, 指定联合条件whereUPDATE items,month SET items.price=month.price WHERE items.id=month.id;注意:多表 UPDATE 不可以使用 ORDER BY 或 LIMIT链接更新,,在需要中间表的时候-- 更新一张表UPDATE table1 t1 INNE...原创 2019-04-13 16:22:57 · 4323 阅读 · 0 评论 -
scrapy框架杂记
一般爬虫的逻辑是:给定起始页面,发起访问,分析页面包含的所有其他链接,然后将这些链接放入队列,再逐次访问这些队列,直至边界条件结束。为了针对列表页+详情页这种模式,需要对链接抽取(link extractor)的逻辑进行限定。好在scrapy已经提供,关键是你知道这个接口,并灵活运用scrapy框架爬取流程 爬取流程 Scrapy的整个数据处理流程由Scrapy引...原创 2019-04-07 20:24:58 · 173 阅读 · 0 评论 -
Centos7安装Selenium+chrome+chromedriver详细
写在前面: chrome不能再linux下以root的权限运行1、修改yum源 在/etc/yum.repos.d/目录下新建文件google-chrome.repo,向其中添加如下内容: [google-chrome] name=google-chrome baseurl=http://dl.google.com/linux/chrome/rpm/stable/$base...原创 2019-03-31 19:30:36 · 3905 阅读 · 1 评论 -
python 的文件写入方式
open()模式 描述 r 以只读方式打开文件,文件的指针将会放在文件的开头.这是打开文件的默认方式 rb 以二进制格式打开一个文件用于只读.文件指针将会放在文件的开头,一般用于非文本如图片等 r+ 打开一个文件用于读写,文件指针将会放在文件的开头 rb+ 以二进制格式打开一个文件用于读写.文件指针将会放在文件的开头.一般用于费文件如图片等 w...原创 2019-03-24 21:57:38 · 1650 阅读 · 0 评论 -
mongodb语法
mongodb使用指南连接mongodb数据库,建立连接对象,用连接对象建立一个具体数据库对象,然后用数据库对象就可以查询表了.from pymongo import MongoClient#建立数据库连接对象 client = MongoClient('mongodb://45.76.206.145:27017')db = client.spider # 建立数据库对...原创 2019-03-10 20:42:14 · 121 阅读 · 0 评论 -
pandas数据结构之numpy
-- 综述 numpy主要用于进行运算 dataframe更切合于业务逻辑 -- numpy的创建, 传入多维数组或者使用routines函数创建 import numpy as np test = np.array([[1,2,3],[4,5,6]]) -- routines函数创建 ...原创 2019-03-03 21:21:28 · 157 阅读 · 0 评论 -
全球国家中英文对照
"阿富汗" : "Afghanistan""奥兰群岛" : "Aland Islands""阿尔巴尼亚" : "Albania""阿尔及利亚" : "Algeria""美属萨摩亚" : "American Samoa""安道尔" : "Andorra"&quo原创 2019-01-18 15:18:13 · 2012 阅读 · 0 评论 -
hadoop学习笔记
hadoop文件namenode: 存储元数据, 被分块保存的数据的信息,如大小,位置datanode: 存储被分块的数据, path->hadoop/data/dfs/data(本地的实际地址)hadoop会建立一个虚拟的文件目录工客户端访问(hdfs://ip:9000/)HDFS实现思想1. hdfs是通过分布式集群来存储文件, 为客户端提供了一个便...原创 2019-07-27 11:24:56 · 182 阅读 · 0 评论