自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Bingo

  人生要学会沉淀,沉淀经验,沉淀心情,沉淀自己。

  • 博客(1154)
  • 资源 (8)
  • 收藏
  • 关注

原创 Python数据分析与机器学习实战

适用人群数据分析,机器学习,数据挖掘领域研究者。Python语言使用者。课程概述【数据分析与机器学习销冠课程,超100000名小伙伴加入】【连续多年荣获“最佳课程奖”,人工智能类“唯一”获奖课程,最佳合作伙伴】【课程同名配套教材《跟着迪哥学Python数据分析与机器学习实战》现已出版,加入课程免费送配套PDF版教材】课程特色:1、机器学习算法全面覆盖,每个算法均有配套项目实战!2、通俗易懂,用最接地气的方式讲解复杂的算法与代码!3、五年沉底,精选配套案例,打造最适合初学者的实战路线图

2021-04-26 14:05:06 1109 1

转载 最实用的数据分析模型——帕累托,手把手教你制作!

很多人都知道二八定理,即20%的人掌握着80%的财富。源出处是80/20帕累托法则,很有名的ABC分类法可以说是该法则的衍生。比如一共有100件商品,10件商品占销售总额的70%,20件商品占销售总额的20%,还有70件商品仅占销售总额的10%。于是你可以按照70%,20%,10%的销售额比重把产品分为ABC三类,然后把重点的管理资源放在A,把较少的资源分配给C或者砍掉部分C商品,以达到资源管理的最优状态。比如下图实例。

2023-01-12 16:14:11 13

转载 数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自己

我们所说的“模型”就是这样一个体系,实际上模型是指对于某个问题或客观事物、规律进行抽象后的一种形式化表达方式,模型分类有很多种,有数学模型、程序模型、逻辑模型、方法模型、数据模型、算法模型、管理模型(来自"MBA智库百科"),而我们这里所说的是“模型”不属于任何一类,对能纳入到数据分析决策中的都是我们需要的模型,主要包括数学模型、数据模型、算法模型、管理模型中的具体模型。这个矩阵可以更细化的说明产品所在行业的状况(比如波士顿矩阵中,偏向于现金牛的瘦狗中的产品,并不一定制定撤退战略就是妥善的。

2023-01-12 15:03:40 81

转载 数据清洗中异常值(离群值)的判别和处理方法

前天参加面试的时候被问了一个题:选择什么样的指标来代表总体情况?我回答的不是很好,具体怎么回答的记不太清了,感觉回答的不是很好。那这里就引申出一个问题,异常值的识别。异常值(outlier)是数据清洗的重要环节,异常值可能直接会导致后面的数据分析、建模工作出现偏差,因为像AdaBoost、GBDT等都对异常值很敏感。

2023-01-04 10:39:00 55

转载 箱形图为什么能检测异常值

一般k=1.5是一个经验值,计算出的是中度异常的范围,K=3计算出的是极度异常的范围概率的四等分即0.25,0.5,0.75,概率为0.25对应的自变量x值为0.675西格玛。当k=1.5下限:= -2.7σ上限:= 2.7σ当k=2下限:= -3.375σ上限:= 3.375σ。

2023-01-04 10:23:45 17

转载 python 获取指定文件夹下所有文件名

(2)os.listdir()用于返回指定的文件夹下包含的文件或文件夹名字的列表,这个列表按字母顺序排序。使用os模块可以获取指定文件夹下所有文件名,有两个方法os.walk()和os.listdir().(1)os.walk可以用于遍历指定文件下所有的子目录、非目录子文件。

2023-01-04 10:21:44 105

转载 xpath 获取标签的 class 属性包含的多个值

class="items"的标签div下包含有多个div标签,它们的class值都等于"item J_MouserOnverReq item-ad " 或 "item J_MouserOnverReq item-ad ",使用。都不能获取得class="items"的标签div下所有的div标签,那么如何获取呢?这时候可以使用功能函数。

2022-11-24 11:27:40 411

转载 Running Jupyter Notebook on an EC2 Server

【代码】Running Jupyter Notebook on an EC2 Server。

2022-11-10 14:46:05 20

转载 Navicat 导出 excel 数据量过大解决方案

Excel一张Sheet最多只能达到1048575行,在网上查询了一大堆都没能找到解决方法,其实解决这个问题很简单,换个导出格式导出即可(txt、csv)注3:导入导出csv文件时,编码一定要改成10008 (MAC - Simplified Chinese GB 2312),不然会出现乱码。注2:这两天用导出csv文件后,发现丢失了一部分数据,最后发现是因为用excel打开了文件导致;注1:txt、csv理论上是可以无限存储的;

2022-11-08 17:02:05 354

转载 如何使用 SQL 快速删除数百万行数据

【4】个人不建议上述的方式建表,上面的建表方式新表是不会复制原表的索引结构的,如果这个是一个大表那么后面单独加索引也是一个问题。注意:其中俩次rename可以先drop然后一次的rename,但是考虑到数据安全,毕竟是大数量数据删除,还是多操作一步,替换后自己检查下,然后再删除旧表,稳妥些。【7】小技巧,如果你的大表有递增的ID,删除的或者保留数据的能够以ID作为划分的那么select的条件可以通过这里进行优化,那么操作效率会更快。通过上面的方式500万的数据不到1分钟,还是比较快的。

2022-10-19 17:09:07 570

转载 Mysql 分区大全及讲解

注意:RANGE分区与LIST分区有一定的相似性,RANGE分区是基于一个连续的区间范围分区,而LIST分区是基于一个给定的值列表进行分区,HASH分区与KEY分区类似,HASH分区既可以使用MySQL本身提供的HASH函数进行分区,也可以使用用户自定义的表达式分区,而KEY分区只能使用MySQL本身提供的函数进行分区。与hash分区不同的是,当数据表中存在主键的时候,可以不指定分区键,MySQL默认使用主键作为key分区的分区键。其中,子分区可以使用HASH分区,也可以使用KEY分区。

2022-10-13 13:41:32 215

原创 SQL query on redshift to get the first and the last value

SQL query on redshift to get the first and the last value。

2022-10-13 11:39:38 45

转载 python 连接 SQLserver、oracle、redshift、mySQL 方法总结

本人是刚刚学习Python小白,因为工作关系,接触到几种不同类型的数据库。这是连接四种不同数据库并获取数据的方法总结。如有不足之处,望高手指点。oracle, SQL server,和 redshift 建立连接的时候大同小异,获取数据和列名的时候,使用的方法都是一样的。但是mysql是个奇葩,用原来的获取方式,拿到的是个tuple. 所以再创建要定义这个cursor类型。然后拿到的数据就是带列名的,神奇呀。pandas 有一个read_sql也挺好用,也包括列名,但是传参数我还没有尝试过怎么用。.....

2022-08-29 13:40:00 168

原创 pandas时间序列之 pd.to_datetime()

还有更加偷懒的办法,假如整理数据时遇到了大量的时间需要输入,比如2020-11-11 00:00:00,输入-和:太浪费时间了,而且时间之间没有什么变化规律可循,这种情况下可以直接输入20201111000000进行记录,之后再借助pd.to_datetime()解析,省时省力一步到位。unit=None,#单位str, default 'ns',可以是(D,s,ms,us,ns)origin='unix',#指定从什么时间开始,默认为19700101。不指定时间则默认从19700101开始。

2022-08-25 10:19:58 1008

转载 在线教育平台edx运营情况数据分析报告——SQL&Tableau

MIT大学的ComputerScience主题的课程总时长平均值为245.8h,Science,Technology,Engineering,andMathematics主题的课程总时长平均值为84.8h,Government,Health,andSocialScience主题的课程总时长平均值为156.1h,Humanities,History,Design,Religion,andEducation主题的课程总时长平均值为62.6h。其中39、40、53属于异常值。...

2022-07-29 15:04:14 582

转载 双独立样本检验——Python(ABtest)

随机抽取实验者并将其分成2组,每组25人,A组使用键盘布局A,B组使用键盘布局B。两组样本所代表的总体平均值差值置信区间,95%置信水平为CI=[-4.07,-1.37],即使用A键盘的错字数量比使用B键盘平均约少2-4个。数据记录在CSV文件中,A列是使用键盘布局A打错字的数量,B列是使用键盘布局B打错字的数量。综上,备选假设成立即两种键盘布局的用户体验有差异,且A版本键盘布局的用户体验更好。两款布局不一样的手机键盘(A版本,B版本),想知道哪种键盘布局的用户体验更好。...

2022-07-28 16:39:44 694

转载 基于RFM模型的用户价值分析——Python&Tableau

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。R(Recency)——最近日期或最新日期即客户最近一次消费日期距分析日的时间间隔。最近一次消费的时间间隔是维系顾客的一个重要指标。根据R值越小越好的标准,间隔时间越短越有可能再次购买,按短到长平均分成5个等级,依次为R5-R1。F(Frequency)——消费频率即单位期间内的消费次数。在单位期间内的消费频率越高越好。消费次数多的客户通常是满意度高和忠诚度高的的客户,这部分客户是企业必须维系好的客户。M(Monetray)——消费总额。......

2022-07-28 13:01:29 250

转载 RFM模型指标构建——SQL

本篇文章主要是实现用SQL语句构建RFM模型指标,为文章‘基于RFM模型的用户价值分析——Python&Tableau’第六部分的SQL版本。将f1、消费金额字段类型修改为整型,将交易日期字段类型修改为日期型;...

2022-07-28 09:25:27 316

转载 Android 点九图 自动aapt 编译脚本

就是简单的shell脚本,合并aapt输出。使用把需要aapt的点九图放在in文件夹中,执行shell脚本,out目录中就会生成aapt完毕的图。in文件夹的点九图有黑线,out文件里没有,已经把信息直接aapt写入的文件。下载连接:https://github.com/Pengjunke1996/nine9_aapt...

2022-07-01 17:45:51 128

转载 点9切图方法

不会点9切图的小伙伴赶快戳进来看看吧最近很多人在微信群问我点9图怎么切的问题,今天u妹把工作中积累的关于点9切图的经验分享给大家,希望大家可以掌握这些切图方法。点九图,是Android开发中用到的一种特殊格式的图片,文件名以”.9.png“命名。这种图片能告诉开发,图像哪一部分可以被拉伸,哪一部分不能被拉伸需要保持原有比列。运用点九图可以保证图片在不模糊变形的前提下做到自适应。点九图常用于对话框和聊天气泡背景图片中。U妹结合一些具体的例子来看下.9.png的具体切图方法。▲- QQ聊天对话框 -▲- 微信

2022-07-01 17:42:47 1462

转载 Excel中时间戳转换公式及原理

 今天遇到个excel问题,将时间戳转换成北京时间。因为只是个别文件,没必要写代码解决。搜索了下公式写法如下:=TEXT((单元格/1000+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")。“单元格”三个字替换为时间戳所在的单元格位置,时间戳的单位如果是毫秒则除以1000,否则不用除以。  那为什么公式这么写呢?第一个参数中除了后面加了个19理解不了,前面就是1900年以来的天数。为什么还要加19?搜索下答案,原来没有考虑到闰年的情况。原文截图如下:  

2022-01-24 10:05:13 870

转载 钉钉机器人各消息类型使用示例

#!/usr/bin/env python# _*_ coding:utf-8 _*_# create time: 07/01/2018 11:35__author__ = 'Devin -- http://zhangchuzhao.site'import reimport sysimport jsonimport timeimport loggingimport requestsimport urllibimport hmacimport base64import hashl.

2021-08-13 11:27:42 2250 1

转载 设计 owllook 网络小说推荐系统

目录 数据推荐算法协同过滤基于流行度的推荐基于用户标签相似度的推荐 评价指标算法对比推荐10本书籍推荐20本书籍 推荐解释探讨结论 本文记录了我对owllook.net这一网络小说搜索引擎的推荐系统的分析与设计过程。这个项目是开源项目,地址在owllook repo,目前已经积累了一定的数据量,需要一个靠谱的推荐系统。注意我用到的数据是内部数据,并没有开源。 本文使用推荐算法包括:基于用户的协同过滤(UserCF...

2021-05-19 13:53:59 3157 2

转载 lua 中随机种子的设定

1. 常用的方法:math.randomseed(os.time())print(math.random())2. 改进的方法:math.randomseed(tostring(os.time()):reverse():sub(1, 6))print(math.random())3. 再改进的方法:math.randomseed(tostring(math.sin(os.time())):sub(4, 12))print(math.random())...

2021-01-28 14:52:02 1540

转载 加权随机采样 (Weighted Random Sampling)

一个集合里有n个元素,每个元素有不同的权重,现在要不放回地随机抽取m个元素,每个元素被抽中的概率为元素的权重占总权重的比例。要怎么做呢?简单的解法现在考虑只抽取一个元素,假设权重之和为1。我们可以从[0, 1]中随机得到一个权重,假设为0.71,而后从第一个元素开始,不断累加它们的权重,直到有一个元素的累加权重包含0.71,则选取该元素。下面是个示意图:要选取 m 个元素,则可以按上面的方法先选取一个,将该元素从集合中去除,再反复按上面的方法抽取剩余的元素。这种方法的...

2021-01-28 14:20:27 3676

转载 Lua base next()

下一站.jpg前言以前我们要遍历一个table的是否往往会是用for循环,如果不是数字索引的表只能使用pairs了,今天这个函数提供了一个方法,就是不断的查询下一个元素的索引和对应的值,来达到遍历table的目的,接下来我们一起来看一下实现的方法。内容next()next(table [, index])解释:使程序可以遍历表table的所有字段。他的第一个参数是一个表,第二个参数是一个表中有效的索引。函数会返回表中相对于指定索引的下一个索引和索引位置的值,当我们将第二个参数设置...

2021-01-28 14:09:29 206

转载 excel 多条件查找三种方法:lookup、vlookup、indexmatch 多条件查找案例

最近在Excel微信学习交流群中收到某位学员的问题咨询,问题是如何返回单据编号和物料长代码对应的含税数额。如下表:其实这位学员的问题就是excel的多条件查找问题。下面通过一个实例跟大家分享一下常用的3种excel多条件查找函数。下表是某电商公司的客户投诉表,现在需要通过A表中的客户姓名与地区两个条件来查询B表中的产品型号,返回到A表的E列中。下面是三种excel双条件查找返回的方法,依次来看:第一 excellookup多条件查询函数公式:=LOOKU...

2021-01-20 17:30:39 4204 1

转载 Python 按照指定的权重生成随机数的方法

前言因为别人问了我一个问题当时一两分钟没想上来,后面搜索了下,找到了一个文章写的很全。搬过来记一下。原问题是想设计一个算法在一个集合中随便选一个数,但是选出来这个数的概率要和这个数的大小成正比。也就是说希望越大的数被大概率的选出来。这个问题更清晰点儿描述是,有一组数字,他们都带有不同的权重,现在要从中“随机”抽一个数字,但是抽到某个数字的概率要正比于他的权重。假设这个集合中的元素和其对应权重为{‘A’:50,‘B’:10,‘C’:100,‘D’:3,‘E’:60,‘F’:25}。方法一如果随机

2020-12-23 14:39:32 2353 1

转载 如何知道国外流行哪款 App (榜单)

作为跨境的从业人员,知道目的国家的消费者使用什么样的社交软件、购物软件非常重要。了解了老外经常使用的社交软件,就可以更深入地了解目标用户的喜好,还可以养号做推广。了解老外经常使用的购物软件,可以学习借鉴同行产品文案、产品详细等信息,还能从评论中寻找机会。在本篇文章中,主要推荐4款全球App排行工具,都是免费的。 App之间的数据可以交叉对比。经常看看,或许能发现一些惊喜!!1.appannie1.1.网址:https://www.appannie.com/cn/apps/ios/top.

2020-12-04 11:55:56 2290

转载 Pandas Groupby Agg 函数中的列顺序

是否有自动方法来维护返回的数据帧的列(‘C’,’B’,’A’)的顺序?g = df.groupby(['people'])g['people'].agg({'C' : len, 'B' : len, 'A' : len, })这将返回A,B,C而不是C,B,A的列.我只能找到示例,但不能找到agg函数本身的文档.这似乎是一种解决方法:g = df.groupby(['people'])g['p

2020-12-04 10:45:58 662

转载 前端控件JQuery Datatables使用——常用功能初始化

本文用于自己记录,忘记时可以用来回顾。点击这里进入JQuerydatatable官网API地址  JQuery Datatables初始化 个人比较喜欢JQueryDatatables的Bootstrap4风格,所以文章以Bootstrap4风格为例。 JQueryDatatable的初始化很简单,按照官网的举例说明,只要如下几个JS和CSS文件即可: 1、jquery-3.3.1.min.js,当然高版本的JS也是可以的 2、jque...

2020-11-27 17:38:44 1411 2

原创 AWS Content Type Settings in S3 Using Boto3

bucket.put_object(Key='index.html', Body=data, ContentType='text/html')

2020-11-24 11:46:45 296

原创 Excel 如何将一列数据用逗号隔开放置到一个单元格

任选一个空的单元格,输入=TEXTJOIN(",",1,A2:A10)

2020-10-13 17:56:31 5850

转载 如何遍历 pandas 当中 dataframe 的行

有如下 Pandas DataFrame:import pandas as pdinp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}]df = pd.DataFrame(inp)print df上面代码输出: c1 c20 10 1001 11 1102 12 120现在需要遍历上面DataFrame的行。对于每一行,都希望能够通过列名访问对应的元素(单元格中的值)。也就是说,需要类似

2020-09-09 11:05:22 1663

转载 Python 丢弃返回值

函数多个返回值python的函数支持返回多个值。返回多个值时,默认以tuple的方式返回。例如,下面两个函数的定义是完全等价的。12345def f(): return 1,2def f(): return (1,2)如果将函数调用的返回值赋值给对应个数的变量,它会一一对应的赋值,这很容易理解。下面是等价的:12a, b = f() # a=1, b=2(a, b) = f()如果赋值给一个变量,将会把整个元组赋值给变量。下面是等价

2020-09-09 10:30:20 490

转载 【动态规划】将一个包含 m 个整数的数组分成 n 个数组,每个数组的和尽量接近

1 背景ClickHouse集群缩容,为保证数据不丢失,计划将需要缩容的节点上的数据,迁移到其他节点上,保证迁移到每个机器上的数据量尽量均衡。数据的迁移已partition为单位,已知每个partition的数据量。2 抽象将一个包含m个整数的数组分成n个数组,每个数组的和尽量接近3 思路这个问题是典型的动态规划的问题,理论上是无法找到最优解的,但是本次只是为了解决实际生产中的问题,而不是要AC,所以我们只需要找到一个相对合理的算法,使得partition的分配相对均衡就好了。输入:

2020-09-09 10:22:52 5909 3

原创 Firefox 实用插件

常用:Adblock Plus 去广告The Fox, Only Better  隐藏地址栏 (备注:别名是 Beyond Australis,安装完后需关闭智能栏地址功能,否则回车会失效)VimFx        浏览器便捷操作LastPass 保存密码Xmarks...

2020-08-27 09:09:40 1786

转载 基于Redis的推荐系统开发

介绍推荐系统并不总是需要用到复杂的机器学习技术.只要手头上有足够的数据,你就可以花很少的功夫开发一个推荐系统.一个最简单的推荐系统可以只是从用户感兴趣的表中查找所需要的推荐信息.当你已经有很多用户和其行为的数据时,使用协同过滤就是一个简单的推荐方案.例如,对于一个运用了协同过滤推荐算法的电子商务网站,你就可以知道哪些购买过睡袋的用户也购买了手电筒,灯笼和驱虫剂.而基于内容的推荐系统则进一步,它具有强大的预测功能,如基于用户的交互就能预测一个用户想要什么.本文将演示如何使用Redis基于用户的兴趣和协同过滤算

2020-08-17 15:25:38 1744

转载 扯扯机器学习

这是第❾篇神扯:扯扯机器学习。虽然,AI火了很久,但是谈起人工智能、机器学习、深度学习这些概念,吃瓜群众还是一脸懵逼。今天,我们来系统讲讲,这些概念到底有啥区别和联系。下面这张图看得比较明白,人工智能、机器学习和深度学习,其实三者是层层包含的关系。人工智能的概念,起源于1950年代,包含多个分支,比如专家系统、进化计算、模糊逻辑、推荐系统,也包括最重要的分支:机器学习。说白了,机器学习是实现人工智能的方法之一。而机器学习...

2020-07-15 14:19:51 315

转载 扯扯人工智能

这是第❽篇神扯:扯扯人工智能。当我们说起云上的人工智能应用时,确切讲,通常都是指AI on Cloud。说白了,就是云服务商把AI能力做成按需服务的资源,提供给客户使用。然而,对于大多数客户来说,他们需要的不是散装能力,而是套餐能力。可是,这个套餐可不可口,还是很有学问的,因为配料很多。通常的AI套餐,一般有6层配料,每层都不好料理。配料多了,食材的选择和搭配就考验“大厨”们的水平,每种“食材”必须都要发挥到极致,味道才会可口,否则往...

2020-07-15 14:18:48 274

AutoHotkey 中文手册

AutoHotkey 中文手册

2017-08-06

数学之美 pdf

数学之美

2017-06-29

Java性能优化指南1.4版

Java性能优化指南1.4版

2017-06-27

用Python进行自然语言处理(中文)

用Python进行自然语言处理(中文)

2017-06-27

WEKA教程完整版

WEKA 教程 数据挖掘

2017-06-19

MyEclipse2015 Stable2.0补丁

2016-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除