![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 96
Mr.Stubborn�
这个作者很懒,什么都没留下…
展开
-
非监督学习-聚类算法概述与代码实现(*K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类)
非监督学习-聚类算法概述与代码实现(K-means, k-modes, k-prototypes, DMSCAN密度聚类, GMM, 层次聚类)聚类算法是什么监督学习、非监督学习、半监督学习与强化学习的概念距离计算方法(相似性)K-means算法逻辑如何评价k-means聚类算法k-means聚类算法如何选出最佳k值K-means的优缺点及应用场景改进和其他常用聚类算法与K-means算法类似的k-modes和k-prototypesDensity-based methods基于密度的聚类算法 DBSCAN原创 2021-02-07 02:46:07 · 2631 阅读 · 2 评论 -
内存优化——chunksize、内存释放、制作json、矩阵压缩、datatype转换、去除冗余
内存优化——chunksize、内存释放、矩阵压缩、datatype转换、去除冗余前言选择正确的方法ChunkSize内存释放制作json(或字典)矩阵压缩datatype转换去除冗余前言之前工作很少遇到内存方面的困扰。前段时间朋友找我帮忙做一家某小型上市银行一年期的交易数据JE,百亿量级。吭哧吭哧写完代码,结果放在她的本地运行直接内存爆掉。于是稍微尝试了一些内存优化的方法,记录一下心德。选...原创 2020-03-27 02:42:28 · 1593 阅读 · 0 评论 -
堆栈(Stack)结构在迭代中的运用
目录:1. 前言2. 栈机构的概览3. 应用案例及分析4. 局限性1.前言前段时间写了几个迭代的脚本,有感而发,于是打算系统的记录一下关于这方面的思考。顺便做一个中二的搬运工~迭代算法我们经常会遇到,它本身并不难,通俗讲就是重复反馈过程。无论什么情况,总会有最直接的办法,遍历每一个元素(类似穷举法)。但是当我们对时间复杂度O有所要求时候,就会去想办法加快这一进程的运算效率。下面讲述...原创 2020-02-16 17:39:52 · 857 阅读 · 0 评论 -
pandas/numpy数据结构算法(之行列变换)(二) (tag:行列转换,迪卡尔积,内置函数,数据结构)
目录:1. Numpy-diag 矩阵变换2. stack()/unstack()3. pd.pivot_table()4. pd.melt()5. groupby聚类算法6. mapping小技巧前言最近遇到很多需要迭代和归并数据的情况,一直以来的做法,都是循环主要的键,去进行后续操作。这是最典型的Python 操作,然而还是上次提到的效率问题。记得之前朋友和我讲过Py的历史,甚...原创 2019-12-08 00:32:26 · 757 阅读 · 0 评论 -
pandas代码优化--"大"数据算法效率(一) (tag:升维度,遍历,循环,内置函数,数据结构)
目录:1. 前言2. 概览3. 肮脏代码与相对改良(例)4. @pyspark,SQL优化…1.前言笔者小白,从事SAAS开发工作(其实是个写脚本的初级菜鸟),在工作中饱受挫折,于是下定决心,更新自己操作中的心德,一来可以分享给其他朋友让大家避免我的歧途,二来可以随时总结,加深记忆。文章如有问题,欢迎大神及时指正,互相学习进步~!2.概览当下主流操作亿兆级别大数据主要还是Apac...原创 2019-11-13 19:07:46 · 790 阅读 · 0 评论 -
新手---Python爬虫全流程(通俗版--案例NASDAQ)
个人理解的Python爬虫流程(通俗版–案例NASDAQ)目录:准备阶段:python安装,相关packages安装。先拿一个目标做测试、编程研究。组装整体框架。结果输出。优化"算法"。应对“反爬虫”技术。1.准备阶段:python安装,相关packages安装(1) python安装:Python安装大部分帖子都有涉及到,但是选择好的语言环境更方便于日后的工作。个人更加喜欢...原创 2019-11-12 14:42:16 · 4135 阅读 · 0 评论