自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 让 Python 爬虫也能读得懂「滑动验证码」

动态网页与静态网页最大的不同是资料是在什么时间点取得的,动态网页是在浏览器已经取得 HTML 后,才透过 JavaScript 在需要时动态地取得资料。因此,爬虫程式也必须要考虑动态取得资料这件事情,才有办法正确地找到想要的资料。 「滑动验证码(Slider Captcha)」是验证码机制当中常见的典型,也是防范爬虫程式中一种难缠的对手。这一篇文章将会利用 Python 、opencv 与 Selenium 三个工具,示范如何拆解和模拟滑动验证码。常见的网页验证码类型与原理你在浏览网页的时候,有看过

2021-06-05 20:55:18 968

原创 现代数据团队与分工

在刚入行的时候曾经写过一篇文章「数据专案团队组成」,当时把数据团队根据技能分成数据科学家、数据分析师和数据工程师三种角色。不过在工作几年之后,发现实务上的数据分工其实更细而且更复杂,也隐含了更多的可能性。这一篇文章将谈谈实务上的数据团队分工。不同的技能与分工首先我们先依照技能与工作简单分成三种类型:擅长 #分析应用 的: 数据分析师(Data Analyst)擅长 #程式实作 的: 数据工程师(Data Engineer)擅长 #模型理论 的: 数据科学家(Data Scienist)换句

2021-05-30 01:25:17 1491

原创 在 mac 上建立 Python 的 Kafka 与 Spark 环境

Introduction「Producer-Consumer」问题是资工系很常用来解释讯息交换的一种范例,用生产者跟消费者间的关系来描述讯息的传递。生产者负责产生资料并放在有限或是无限的缓冲区让等待消费者来处理。串流资料(Streaming Data)本质上就是一端不断的丢出资料,另一端需要持续地进行处理,就像 Producer-Consumer 一样。Kafka 是近期一个用来处理串流资料的...

2019-03-27 13:32:40 345

原创 淺淺地談 GraphQL

什么是 GraphQL?为什么要用 GraphQL?GraphQL - A Query Language for APIsGraphQL is a new API standard that provides a more efficient, powerful and flexible alternative to REST. It was developed and open-sour...

2019-01-28 17:32:29 269

原创 标签编码、独热编码大不同 - Python 实现

对于新手在做资料的特征工程时,会看到 Label Encoding 或 One Hot Encoding 两种对于类别行资料的编码方式,那他们之间究竟有什么不同呢?直接讲结论:原始资料是有序离散值的话 => Label Encoding原始资料是无序离散值的话 => One Hot Encoding (Dummies)以下分为两点说明:为什么要将离散转数值?因为大部分...

2019-01-25 10:08:51 1832

原创 PredictionIO:开源的推荐系统

PredictionIOPredictionIO 是一个用Scala编写的开源机器学习服务器应用,可以帮助你方便地使用RESTFul API搭建推荐引擎。 PredictionIO的核心使用的是一个可伸缩的机器学习库,基于Spark一个完整的端到端Pipeline,让使用者可以非常简单的从零开始搭建一个推荐系统。 "PredictionIO 是由三个元件所组成:PredictionIO ...

2019-01-21 09:42:33 1408

原创 K-means 怎么选 K ?

K-means 怎么选 K ?这个问题我们可以回到 K-means 或是 Cluster 方法的核心目标:同一群里的资料同质性高,不同群的资料同质性低。这边的同质性高会以「距离」作为指标,也就可以换句话说:同一群里内的距离近,不同群间的距离远。基于这个概念,提供两种方式来挑选 K:1. 手肘法(elbow method)其概念是基于 SSE(sum of the square...

2019-01-20 02:01:18 360

原创 Python 爬虫的工具链

资料爬虫是资料分析的入门砖,Python 更是资料爬虫的热门工具。因为热门,所以也会有许许多多相关的配套工具出现。但对于新手来说,该如何寻找到适合的工具其实是很麻烦的。这一篇文章会介绍一下几个比较主流的相关工具,与他们适合的使用时机。Requests / urllibRequests 或是 urllib 这两个套件都是用于处理 HTTP 协定的工具。 urllib 是内建于 Python 有...

2019-01-17 10:31:28 211

原创 Isomorphic SSR 的第一哩路: Next.js

什么是 SSR?为什么要 SSR?SSR 是 Sever-side Render 的缩写,意思是指「在 Server 端就产生(Render)出画面」。目前大概有几种产生画面的时机点:Server Side Render: 在后端接收到 Request 即产生 HTML 画面,需要新的资料则需要重新发送 Request ,也会产生一个新的画面。后端的 Framework 通常都会有一个 HT...

2019-01-15 09:37:51 197

三角定位法

三角定位

2012-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除