自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 AI:总结线性回归模型评估方法

线性回归模型评估方法大概有这几个种类:R-SquareStandard DeviationMAPE(Mean Absolute Percentage Error) & MAE(Mean Absolute Error)RMSE(Root Mean Squared Error) & MSE(Mean Squared Error)AIC(Akaike’s Informatio...

2019-07-14 23:23:12 1439

原创 TF:CNN里面的weight,bias,shape,从形状的角度理解整个过程

了解过机器学习的人都知道通用公式:y = w * x + bweight:权重比bias:偏斜量但是很多人不清楚CNN(卷积神经网络)里面的weight 和bias在哪儿,是怎么参与运算的。这篇文章就为大家揭晓。同时,在CNN里面永远绕不开一个概念:shape:形状首先介绍shape(形状):在测试中,我们输入了100*100的原始图片 “一.png”:然后将它转换为 shape[...

2019-05-28 15:35:49 17155 7

原创 爬虫:怎么应对字体混淆反爬机制,TTF怎么转换为SVG,PNG

现在越来越多的网站开始采用字体混淆,这种技术来应对爬虫。它就是采用TTF等一些字体文件替换掉了HTML里面的文本信息。并且准备了几千套字体作为爬虫的见面礼。为什么需要将TTF转换为SVG,PNG图片?因为当存在几千套字的时候,单纯比较文件名,unicode, 顶点信息都是无法识别的。下图就是汽车之家的例子,同样一个字‘下’,在不同页面是有细微区别的。解决这样的问题,最好的方式就是OCR,O...

2019-05-21 22:34:28 1949 2

原创 爬虫:SNKRS电商网站应该怎么反爬,反BOT

黄牛抢鞋的过程:通常黄牛们都会用小程序不停地扫描SNKRS这样的电商网站,通过HTML里面的信息找到目标,比如AJ1,YEEZY等销量高的鞋。然后通过调用API的方式,实现“加入购物车”->“输入地址”->“付款”等步骤。下图是SNKRS的HTML,里面包含了API和鞋子的基本信息。无论是通过API调用还是headless browser(无头浏览器), 这些信息都是识别的关键。...

2019-05-21 21:14:34 6988 2

原创 AI:PYTHON - KMEANS聚类实践 - 根据成绩等特征进行分班

聚类是大家经常需要解决的问题,运用PYTHON -> KMEANS实现聚类非常简单。以下就是一个实例告诉大家如何简单的进行聚类,并且展示聚类结果。本文的数据源来自百度文库:https://wenku.baidu.com/view/eb73005f9b6648d7c1c746db?from=search聚类三个步骤:数据预处理模型训练结果展示结果展示:成绩相近的同学被分到一个班...

2019-05-05 18:02:01 1418 1

原创 大数据:运用Hash思维做聚类,不需要训练的平衡聚类

应用场景:现在有大量的用户行为数据,样本如下:用户A:‘网页登录’->‘选择商品A’->‘购买’用户B:‘手机登录’->‘进入游戏中心’->‘开始玩斗地主’这些都是用户单次登录后的行为数据流。需要将类似行为的用户数据流简单聚类,存储到不同的分区,方便后续的进一步分析。面临问题:用户行为太多,上千种:‘选择’,‘浏览’,‘管理’,‘玩耍’不了解数据分布情况,不...

2019-04-19 12:37:18 644

原创 大数据:Oracle&MySql存储机制是否适合做数据仓库

这次主要讨论Oracle & MySQL底层的存储机制,以及是否适合做数据仓库。Oracle和Mysql的存储单位都极为相似,他们的最小单位分别是block/page,这个的大小是可以配置的。每一个block/page可以存储一条或多条数据。并且也是一次I/O读的最小单位。Oracle存储单位:Tablespace/Segments/Extents/blocksMySql存储单位:...

2019-03-02 08:48:55 1317 1

原创 大数据:数据库类型简介

这篇文章,作为抛砖引玉,给大家介绍各种常见数据库的类别。在之后还有发布一些文章,针对性地分析同一个类别中的数据库的优缺点。这将是一个系列的文章,几个从事大数据工作的朋友,组成一个大数据学习小组,对大数据的知识体系进行一次系统的梳理。在下表中,从几个维度简单展示了当下流行的一些数据库的特性,让大家能有个初步认识。在做出分类时,会有不准确的情况,比如Oracle是否支持内存存储,Oracle的临时...

2019-02-23 22:21:08 12298 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除