HoLoooooong-CSDN博客

原创手撸机器学习算法 - 逻辑回归

系列文章目录：感知机线性回归非线性问题多项式回归岭回归逻辑回归算法介绍今天我们一起来学习使用非常广泛的分类算法：逻辑回归，是的，你没有看错，虽然它名字里有回归，但是它确实是个分类算法，作为除了感知机以外，最最最简单的分类算法，下面我们把它与感知机对比来进行学习；从决策边界上看感知机：决策边界就是类别的分界线，处于错误一侧的点即为分类错误点；逻辑回归：决策边界表示分为正...

2021-06-24 16:05:00 49

原创手撸机器学习算法 - 岭回归

系列文章目录：感知机线性回归非线性问题多项式回归岭回归算法介绍今天我们来一起学习一个除了线性回归、多项式回归外最最最简单的回归算法：岭回归，如果用等式来介绍岭回归，那么就是：\(岭回归 = 多项式回归 + 惩罚项\)，\(多项式回归 = 线性回归 + 多项式特征构建\)，从上述等式可以看到，所谓学习岭回归，只需要学习多项式和惩罚项即可，由于之前我们已经学习过多项式回归了，因此现...

2021-06-18 10:00:00 43

原创手撸机器学习算法 - 多项式回归

系列文章目录：感知机线性回归非线性问题多项式回归岭回归算法介绍今天我们来一起学习一个除了线性回归外最最最简单的回归算法：多项式回归；从线性回归到多项式回归事实上与线性回归相比，多项式回归没有增加任何需要推导的东西，唯一增加的是对原始数据进行多项式特征转换，这有点类似我们在非线性问题中对特征的处理：将\(x_1\)转换为\(x_1^2\)，之前我们是通过对数据的探索来决定如何...

2021-06-17 09:55:00 42

原创手撸机器学习算法 - 非线性问题

系列文章目录：感知机线性回归非线性问题多项式回归岭回归算法介绍前面两篇分别介绍了分类与回归问题中各自最简单的算法，有一点相同的是它们都是线性的，而实际工作中遇到的基本都是非线性问题，而能够处理非线性问题是机器学习有实用价值的基础；首先，非线性问题在分类与回归中的表现是不同的，在回归问题中，通常指的是无法通过线性模型很好的拟合，而在分类问题中，非线性问题指的是无法通过超平面进行...

2021-06-15 15:20:00 30

原创手撸机器学习算法 - 线性回归

系列文章目录：感知机线性回归非线性问题多项式回归岭回归如果说感知机是最最最简单的分类算法，那么线性回归就是最最最简单的回归算法，所以这一篇我们就一起来快活的用两种姿势手撸线性回归吧；算法介绍线性回归通过超平面拟合数据点，经验误差一般使用MSE(均平方误差)，优化方法为最小二乘法，算法如下：假设输入数据为X，输出为Y，为了简单起见，这里的数据点为一维数据(更好可视化，处理方...

2021-06-11 18:02:00 28

原创手撸机器学习算法 - 感知机

系列文章目录：感知机线性回归非线性问题多项式回归岭回归感知机(Perceptron)是最最最简单的机器学习算法(分类)，同时也是深度学习中神经元的基础组件；算法介绍感知机与逻辑回归、SVM类似的是同样是构建一个分割超平面来实现对数据点的分类，不同点在于超平面的查找过程更加的简单粗暴，简单介绍下它的算法流程：假设二分类线性可分问题，x为输入特征，y为输出标签，y取值为-1和...

2021-06-11 11:59:00 25

全部内容来源于《Python深度学习》，以练习为主，理论知识较少，掺杂有一些个人的理解，虽然不算很准确，但是胜在简单易懂，这本书是目前看到最适合没有深度学习经验的同学们入门的书籍了，不妨试试，该书作者：Francois Chollet，即Keras之父，该书译者：张亮；相关内容以及代码已经在Kaggle的notebook上正常运行，欢迎大家star、fork；深度学习第一个难点在于它所谓的黑...

2021-05-21 10:09:00 19

原创 Apache Pig

What is PigApache Pig是MapReduce的一个抽象，它是一个工具/平台(所以说它并不完全是一门语言)，用于分析较大数据集，并将其表示为数据流；Pig通常与Hadoop一起使用，使用Pig进行数据处理、分析时，需要使用其提供的Pig Latin脚本语言编写相应脚本，这些脚本执行时会被转换为Map和Reduce任务(类似Spark)，Pig Engine组件接受Pig La...

2021-01-19 14:06:00 28

原创分布式机器学习：如何快速从Python栈过渡到Scala栈

首先介绍下我的情况和需求，如果你跟我类似，那么这篇文章将很有帮助；我之前的技术栈主要是Java、Python，机器学习方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等，因为工作需要使用spark，所以理所应当的开始学习pyspark；之后一方面团队其他成员基本都是用scala，同时在Spark API更新上，pyspark也要慢于scala的，而且...

2020-10-20 15:48:00 21

原创最简单入门深度学习

该篇文档基于kaggle course，通过简单的理论介绍、程序代码、运行图以及动画等来帮助大家入门深度学习，既然是入门，所以没有太多模型推导以及高级技巧相关，都是深度学习中最基础的内容，希望大家看过之后可以自己动手基于Tensorflow或者Keras搭建一个处理回归或者分类问题的简单的神经网络模型，并通过dropout等手段优化模型结果；每部分都有对应的练习，练习都是很有针对性的，而且都很...

2020-10-14 19:25:00 18

原创机器学习可解释性系列 - 是什么&为什么&怎么做

机器学习可解释性分析可解释性通常是指使用人类可以理解的方式，基于当前的业务，针对模型的结果进行总结分析；一般来说，计算机通常无法解释它自身的预测结果，此时就需要一定的人工参与来完成可解释性工作；目录：是什么：什么叫可解释性；为什么：为什么要对模型结果进行解释；怎么做：如何有效的进行可解释性工作；是什么机器学习介绍可解释性之前，我们先来简单看看什么是机器学习，此处我们主要讨论...

2020-09-30 15:43:00 24

原创 Spark 频繁模式挖掘

Spark - Frequent Pattern Mining官方文档：https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步，这也是近些年数据挖掘领域的活跃研究话题；目录：FP-GrowthFP-GrowthFP-Growth算法基于...

2020-09-29 17:31:00 25

原创 Spark Parquet详解

Spark - Parquet概述Apache Parquet属于Hadoop生态圈的一种新型列式存储格式，既然属于Hadoop生态圈，因此也兼容大多圈内计算框架(Hadoop、Spark)，另外Parquet是平台、语言无关的，这使得它的适用性很广，只要相关语言有对应支持的类库就可以用；Parquet的优劣对比：支持嵌套结构，这点对比同样是列式存储的OCR具备一定优势；适用于OLA...

2020-09-29 16:27:00 34

原创 Spark 模型选择和调参

Spark - ML Tuning官方文档：https://spark.apache.org/docs/2.2.0/ml-tuning.html这一章节主要讲述如何通过使用MLlib的工具来调试模型算法和pipeline，内置的交叉验证和其他工具允许用户优化模型和pipeline中的超参数；目录：模型选择，也就是调参；交叉验证；训练集、验证集划分；模型选择(调参)机器学习的一...

2020-09-28 10:52:00 26

原创 Spark 聚类算法

Spark - Clustering官方文档：https://spark.apache.org/docs/2.2.0/ml-clustering.html这部分介绍MLlib中的聚类算法；目录：K-means：输入列；输出列；Latent Dirichlet allocation(LDA)：Bisecting k-means；Gaussian Mixture Model...

2020-09-27 18:58:00 17

原创 Spark 特征提取、转换和选择

Spark(3) - Extracting, transforming, selecting features官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html概述该章节包含基于特征的算法工作，下面是粗略的对算法分组：提取：从原始数据中提取特征；转换：缩放、转换、修改特征；选择：从大的特征集合中选择一个子集；局部...

2020-09-25 12:13:00 56

原创 Spark Job-Stage-Task实例理解

Spark Job-Stage-Task实例理解基于一个word count的简单例子理解Job、Stage、Task的关系，以及各自产生的方式和对并行、分区等的联系；相关概念Job：Job是由Action触发的，因此一个Job包含一个Action和N个Transform操作；Stage：Stage是由于shuffle操作而进行划分的Task集合，Stage的划分是根据其宽窄依赖关系；...

2020-09-21 16:59:00 20

原创 Spark Pipeline使用

ML Pipelines(译文)官方文档链接：https://spark.apache.org/docs/latest/ml-pipeline.html概述在这一部分，我们将要介绍ML Pipelines，它提供了基于DataFrame上统一的高等级API，可以帮助使用者创建和调试机器学习工作流；目录：Pipelines中主要的概念：DataFramePipeline组件T...

2020-09-17 18:30:00 44

原创 Android绘图及Bitmap几个知识点整理

Android Path绘制的折线如何变得平滑多个点可以连成一个折线,如何将折线的拟合处变为曲线,使得整个线看上去更加平滑呢?分下来有以下三种实现方法：方法1：Paint.setStrokeJoin(Paint.Join.ROUND)这个方法可以将path中所有线段的Join方式设置为ROUND,实际效果就是拟合处变成了更加平滑的曲线;方法2：CornerPathEffect co...

2020-06-10 18:10:00 26

原创简单说维特比算法 - python实现

动态规划求最短路径算法,与穷举法相比优点在于大大降低了时间复杂度;假如从起点A到终点S的最短路径Road经过点B1,那么从起点A到B1的最短路径的终点就是B1,否则如果存在一个B2使得A到B2的距离小于B1,那么起点A到终点S的最短路径Road就不应该经过B1,而应该经过B2,这显示是矛盾的,证明了满足最优性原理;假设从A到S需要经过N个时刻,每个时刻有M个状态(B1,B2...BM),那...

2020-06-10 17:37:00 20

原创 200行Python代码实现贪吃蛇

200行Python代码实现贪吃蛇话不多说，最后会给出全部的代码，也可以从这里Fork，正文开始；目前实现的功能列表：贪吃蛇的控制，通过上下左右方向键；触碰到边缘、墙壁、自身则游戏结束；接触到食物则食物消失，同时根据食物类型身体会变长；目前长度显示；暂停、死亡界面；运行动图代码片段分析各个部分绘制的代码# 游戏背景以及最下方用于显示文字的背景def draw_bac...

2020-04-07 20:53:00 25

原创 140行Python代码实现Flippy Bird

140行代码实现Flippy Bird话说这游戏中文名叫什么来着，死活想不起来了，算了话不多说，140行实现小游戏系列第二章，依然是简单小游戏，与数独游戏相比，在游戏界面显示上更难一些，但是在逻辑方面更简单一些，需要处理的无非是速度、加速度、时间、位置、碰撞检测，界面方面则要实现整个动态的显示；依旧在最后会给出全部代码，不过依然可以从我的Github仓库Fork下来直接运行，图片资源也在那里...

2020-04-05 17:43:00 11

原创 Python实现十大经典排序算法

Python实现十大经典排序算法代码最后面会给出完整版，或者可以从我的Githubfork，想看动图的同学可以去这里看看；小结：运行方式，将最后面的代码copy出去，直接python sort.py运行即可；代码中的健壮性没有太多处理，直接使用的同学还要检查检查；对于希尔排序，gap的选择至关重要，需要结合实际情况更改；在我的测试中，由于待排序数组很小，长度仅为10，且最大值为10...

2020-04-04 18:30:00 11

原创 150+行Python代码实现带界面的数独游戏

150行代码实现图形化数独游戏Github地址，欢迎各位大佬们fork、star啥的，感谢；今天闲着没事干，以前做过html+js版的数独，这次做个python版本的，界面由pygame完成，数独生成由递归算法实现，由shuffle保证每次游戏都是不一样的情况，have fun；功能列表：图形化的数独游戏；python实现，依赖pygame库；随机生成游戏，每次运行都不一样；数字...

2020-04-03 17:41:00 70

原创 2019新型冠状病毒(2019-nCoV) - 数据采集、模型预测

关于2019-nCoV的数据采集、模型预测武汉加油、湖北加油、中国加油！！！采集、预测仓库地址项目背景2020年开年爆发的新型冠状病毒，新的一年相信对于大家来说都是地狱模式开局，对于我本人也是如此，打乱了很多计划，有些不知所措，但是灾难面前，唯有同舟共济，对此我个人是乐观的，中华民族是不服输的民族，上下5000年历史，比这大的灾难比比皆是，但是我们依然屹立于此，依然活跃于世界舞台，这充分...

2020-02-09 16:50:00 1060

原创关于2019新型冠状病毒的数据采集

已经写好了脚本，目前是每十分钟采集一次，数据来源于丁香园+人民日报的数据，1月27号左右的时候写过一个，但是当时由于丁香园的数据格式也一直在变动所以跑了两天就停了，今天在kaggle上看到有人上传了基于省份的新型冠状病毒的全球数据，但是看起来不够详细，数据基本以天为单位，因此又修改了之前的采集脚本，从今天开始，希望能尽量采集到疫情结束吧，希望快点结束，希望大家都健康。...

2020-02-06 00:16:00 1080

原创阅读kaggle上大佬们的kernel

阅读别人的kernel就好像跟这个人聊天一样，每个人的kernel中都包含了他的思维过程，他对这个问题的理解，有意思；

2020-01-25 01:47:00 9

原创如何更好的分享机器学习

一些关于分享的思考通过之前写的几篇机器学习相关的blog，能看到偏简单的形式更容易被大家接受，而一些比较有难度的项目，分享的效果就很一般，原因主要有以下几个方面：比较难的项目需要对项目背景、数据形式、竞赛信息等有一定的了解，不然容易一头雾水，连是要干嘛都看不懂；个人的文笔能力有限，包括blog的整体结构也不够合理，没有能够言简意赅的讲明白；对于机器学习的理解不够，因此写成blog后就又...

2020-01-21 23:48:00 12

原创机器学习竞赛分享：通用的团队竞技类的数据分析挖掘方法

前言该篇分享来源于NFL竞赛官方的R语言版本，我做的主要是翻译为Python版本；分享中用到的技巧、构建的特征、展示数据的方式都可以应用到其他领域，比如篮球、足球、LOL、双人羽毛球等等，只要是团队竞技，都可以从中获益；分享基于kaggle上的NFL大数据碗，也就是基于橄榄球；泰森多边形的概念最好可以去了解一下，可以不用纠结于公式，看看它对一些实际问题的抽象建模表示即可；分享目的...

2020-01-21 17:49:00 14

原创机器学习竞赛分享：NFL大数据碗（上篇）

kaggle竞赛分享：NFL大数据碗 - 上竞赛简介一年一度的NFL大数据碗，今年的预测目标是通过两队球员的静态数据，预测该次进攻推进的码数，并转换为该概率分布；竞赛链接https://www.kaggle.com/c/nfl-big-data-bowl-2020项目链接，该项目代码已经public，大家可以copy下来直接运行https://www.kaggle.com/holoo...

2020-01-20 14:33:00 28

原创由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目，这里由于个人电脑配置问题，我一直都是用的Kaggle的kernel，但是我们知道kernel的内存限制是16G，如下：在处理数据过程中发现会超出，虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架，但是依然存在下面的问题：对于个人来说，没有足够的资源让这些框架发挥其优势；从处理数据的库丰富程度上...

2020-01-20 00:11:00 21

原创 NFL分享预告2

这次分享会分为上下两部分，上篇主要是我个人参赛的过程以及最终产出的项目工程，下篇是一个关于NFL的数据探索项目，是Kaggle主办发分享的R版本，我翻译为Python版本，以及会增加上届比赛最终冠军的一篇论文，干货满满哦；...

2020-01-17 10:16:00 11

原创预告-分享Kaggle上的NFL比赛码数预测

Hello，近期会分享最近的一个Kaggle上的比赛，NFL比赛的码数预测，通过这个比赛还是学到很多，虽然最后分数不理想。。。。这篇分享的内容适用于绝大多于的关于团队竞技类比赛的场景下的预测问题，比如足球、篮球、王者荣耀等等，算是从一个比较通用的角度来看待和分析建模，先附上Kaggle竞赛链接吧，NFL Big Data Bowl...

2020-01-12 14:15:00 17

原创关于wechat+

首先感谢大家的厚爱，短短两天已经 15 star 6 fork 了，给力给力，另外强推Competition仓，包含了目前所有在做的、做完的机器学习项目，以时间序列问题为主，大家有意向可以看看：wechat+分享博客github仓库...

2020-01-10 13:21:00 8

原创哇，文章冲到博客园48小时阅读榜啦，冲鸭

wechat+项目开源分享 - 让你的微信账号有趣起来

2020-01-09 17:08:00 10

原创 Python奇技淫巧 - 持续更新中....

Python奇技淫巧人生苦短，我用Python；编程界这绝对不是一句空话，尤其是对于使用过多个语言进行工作的同学们来说，用Python的时间越长，越有一种我早干嘛去了的想法，没事，啥时候用Python都不晚，这篇分享主要集中在各种Python的经典用法、有趣的彩蛋等等，目的只有一个，让大家感受到Python的魅力；这篇分享计划是持续更新的，所以大家可以关注我或者收藏这篇帖子，会不定期更...

2019-10-02 19:11:00 13

原创波士顿房价预测 - 最简单入门机器学习 - Jupyter

机器学习入门项目分享 - 波士顿房价预测该分享源于Udacity机器学习进阶中的一个mini作业项目，用于入门非常合适，刨除了繁琐的部分，保留了最关键、基本的步骤，能够对机器学习基本流程有一个最清晰的认识；项目描述利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型，并对模型的性能和预测能力进行测试；项目分析数据集字段解释：RM: 住宅平均房间数量；LSTAT: 区域中被认为...

2019-10-01 22:25:00 14

原创机器学习基本流程整理 - 这一篇就够啦

机器学习基本流程流程图链接众所周知，ML是一个流程性很强的工作(所以很多人后面会用PipeLine)，数据采集、数据清洗、数据预处理、特征工程、模型调优、模型融合、模型验证、模型持久化；而在这些基本的步骤内，又存在很多种方式，比如数据采集可以是爬虫，可以是数据库拉取，可以是通过API获取等等，数据清洗要注意缺失值处理，异常值处理，特征工程更是复杂多样，因此根据Kaggle上的一些大佬们的分...

2019-09-30 17:09:00 24

原创规则引擎 - drools 使用讲解（简单版） - Java

drools规则引擎项目链接现状：运维同学(各种同学)通过后台管理界面直接配置相关规则，这里是通过输入框、下拉框等完成输入的，非常简单；规则配置完毕后，前端请求后端，此时服务端根据参数(即规则)生成drl规则文件；用户侧有相关请求到达时，服务端加载规则文件(可能是多个，一般一个广告、活动对应一个规则文件)，并通过引擎去检查当前用户各种状态是否满足规则文件；将所有满足的规则文件对应的...

2019-09-30 11:14:00 26

原创检查图片是否损坏、图片后缀是否与实际图片类型对应 - Python

图片工具检查图片是否损坏日常工作中，时常会需要用到图片，有时候图片在下载、解压过程中会损坏，而如果一张一张点击来检查就太不Cool了，因此我想大家都需要一个检查脚本；测试图片，0.jpg是正常的，broke.jpg是手动删掉一点内容后异常的：脚本运行结果：代码如下：# 从本地判断图片是否损坏 def is_valid_image(path): ''' 检查文件是否损坏 ...

2019-09-29 16:29:00 30

空空如也

空空如也