自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

smilejiasmile的博客

Coding your imagine

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

转载 区块链安全-以太坊智能合约静态分析

Gao Feng of Qihoo 360 IceSword LabHuang Shao Mang of Qihoo 360 IceSword Lab概述目前,以太坊智能合约的安全事件频发,从The DAO事件到最近的Fomo3D奖池被盗,每次安全问题的破坏力都是巨大的,如何正确防范智能合约的安全漏洞成了当务之急。本文主要讲解了如何通过对智能合约的静态分析进而发现智能合约中的漏洞。由于智能合约部署之后的更新和升级非常困难,所以在智能合约部署之前对其进行静态分析,检测并发现智能合约中的漏洞,可以最

2021-09-10 10:13:16 965

原创 Scrapy 爬虫框架五—— 常见的反爬虫技术

爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如前面介绍的通过 User-Agent 请求头验证是否为浏览器、使用JavaScript动态加载资源等,这些都是常规的反爬虫手段。下面针对更强的反爬虫技术提供一些解决方案。IP 地址验证有些网站会使用 IP 地址验证进行反爬虫处理,程序会检查客户端的 IP 地址,如果发现同一个 IP 地址的客户端频繁地请求数据, 该网站就会判断该客户端是爬虫程序。针对这种情况,我们可以让 ..

2021-09-01 18:11:06 505

原创 Scrapy 爬虫框架四 —— 动态网页及其 Splash 渲染

一、前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送给我们客户端二、问题分析scrapy爬虫框架没有提供页面 js 渲染服务,所以我们获取不到信息,所以我们需要一个渲染引擎来为我们提供渲染服务---这就是Splash渲染引擎(大侠出场了)1、Splash渲染引擎简介:Splash是为Scrapy爬虫框架提供渲染javas.

2021-09-01 17:57:31 707

原创 Scrapy 爬虫框架初体验三 —— 工程优化及其完善

一、工程优化及其完善日志系统及定时过期删除日志文件在工程目录中的settings.py 添加如下修改:import loggingfrom scrapy.utils.log import configure_loggingfrom logging.handlers import TimedRotatingFileHandlerFEED_EXPORT_ENCODING = 'gb18030' # 输出的编码格式为uft-8, gb18030# Log Configlog.

2021-09-01 17:34:22 244

原创 Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例

一、搭建基础 Scrapy 工程框架创建项目输入如下命令:scrapy startproject NewsSpider # 创建项目cd NewsSpiderscrapy genspider technews tech.163.com # 创建一个爬虫tree .目录结构如下:(base) ➜ [dfg@:/Users/dfg/code/codeplay/python/Spider/NewsSpider] tree ..├── NewsSpider│ ├─..

2021-09-01 16:37:37 220

原创 Scrapy 爬虫框架初体验一 —— 网络爬虫及其框架介绍

一、框架概述网络爬虫介绍在介绍框架之前,简单介绍一下网络爬虫(Web Crawler)。当我们上网时,浏览的网页上有很多形形色色的信息,我们可以手动收集(复制粘贴or下载)我们需要的信息。但是,当信息量比较多就显得很麻烦了,有没有一种方式可以自动且快捷地把一堆相关网页上的海量信息下载下来呢?有,那就是网络爬虫。网络爬虫是一种从 Web 上自动下载网页的程序——网络爬虫把一个或多个“种子网页”作为输入,然后经过下载、分析和扫描等处理过程来获取新链接。对于指向未下载网页的链接,将它们加到一个

2021-09-01 16:11:17 217

原创 数据获取之网络爬虫专栏简介

一、技术选型众所周知,针对不同的业务场景和需求选取不同的技术选型和架构方案方案。可以让我们事半功倍,提升工作效率的同时完成本职工作。而针对互联网上的数据获取需求也是一样。下面我们将介绍三种场景的爬虫数据获取需求和场景,并推荐其相应的解决方案。1、简单需求(单文件脚本 / 基于 request 网络库及相关第三方库)针对一次需求和没有持续集成的要求的场景,对于这类简单的任务,不使用爬虫框架也能实现很好的效果,而且代码更少。当采用 Python 语言实现时,常用的相关依赖库有request...

2021-09-01 15:09:26 227

机器学习笔记(经典机器算法和大数据算法)

涉及机器学习的各种经典的算法,其中,有 logistics 回归,决策树、随机森林、XGBoost、SVM、主题模型、隐马尔可夫链、贝叶斯网络、聚类算法等等

2018-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除