2020年12月_NO23412号菜狗

原创 reddit 推荐算法的一半的解读新手向

http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_reddit.html

2020-12-29 16:37:59 316

原创 Stack Overflow的排名算法简单分析

http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_stack_overflow.html

2020-12-29 15:22:59 451

一、需求目的①、商城已上线2周年，已有10万+在售物品。数据仓库中积累着大量的业务数据、日志数据及埋点数据。如何充分挖掘沉淀在数据仓库中的数据的价值，有效的支持用户画像的建设，成为当前的重要工作。②、在保证用户规模不断增长的目标下，运营方考虑建立用户流失预警机制，及时识别将要流失的用户群体，及时采取运营策略换回用户。二、产品结构三、用户画像系统搭建流程目前团队已经搭建了比较成熟的数据仓库。也就是说已经有结构化的、清晰的用户属性、用户行为相关数据。在此基础上，搭建用户画像系统，需要：

2020-12-28 17:53:52 413

原创关于排名算法的一些思考引用

最近开始在简书上混，今日在首页上不经意间看到一篇《从豆瓣电影评分算法说起》，感觉有点眼熟，就点了进去。其实阿北的那篇《豆瓣电影评分八问》，我也是刚看过，这可能也是让我觉得眼熟的原因。热度TopN排名榜其他的不多说，其实让我耳目一新的是作者说的用户投票排名算法。我之所以说是耳目一新，那是因为类似这种热度TopN排名的算法，在一年前接触过，也设计过排名算法，并且，至今然仍在用，那就是“极客头条"的最热排行榜。而现在，总算是接触到比较完整的算法描述了，对排名算法也有了一个比较系统的认知，所

2020-12-28 17:25:00 227 1

原创关于python bool判断出错的一些理解 stack最高回答

Theorandandpython statements requiretruth-values. Forpandasthese are considered ambiguous so you should use "bitwise"|(or) or&(and) operations:result = result[(result['var']>0.25) | (result['var']<-0.25)]These are overloaded for ...

2020-12-24 11:02:11 175 1

原创 python excel 读取日期数据 4 开头乱码解决的一个思路

apply加

2020-12-22 16:02:38 1190

原创 python dataframe 列应用正则表达式筛选

假设有如下的 DataFrame：现在需要增加一列，名字为选择原因，内容为在经营范围中进行搜索，如果发现含有设备、汽车、网络中的任何一个词的，就在选择原因中写上这个搜索到的词，否则不填。我们可以对列调用 apply 方法，使用正则表达式来进行匹配，假设 DataFrame 名称为 df，代码如下：import repattern = r'设备|汽车|网络'# 一行超人df['选择原因'] = df['经营范围'].apply(lambda s: ''.join(set(re.fin

2020-12-22 15:14:12 6531 2

原创 python 筛选包含或不包含某字符串的方法列表

工作中数据的处理中往往会遇到筛选出不符合条件的或者不包含某个字符的dataframe，我们会如何去做呢？可能你会想到用python写一个函数，然后用panda的apply函数或者map函数来进行处理，不可否认这是一中方法，但是实际上pandas中已经给我们开发了这样的函数，那我们为什么不直接调用呢？首先看一下，怎么筛选出包含某些字符串的数据 #这是使用语法,模糊匹配 df[ df['通信名称'].str.contains('联通|移动|小灵通|电信')] #..

2020-12-21 16:18:59 22663 4

原创 win10 笔记本突然连接不上一切蓝牙

如果设备管理器注册表等方案你都失败了问题方案很简单百试百灵断开一切连接设备包括电源关机之后一直摁着电源键20秒在开机睿智微软人员没一个靠谱解答

2020-12-19 06:59:54 304 1

原创网络安全界巨擘王江民

王江民，中国最早的反病毒专家，被业界尊称“中国杀毒软件之父”、“中国反病毒第一人。以38岁为分界，王江民的前半生，是中国青年身残志坚的楷模，他的后半生是中国安全软件的奠基人，带领中国商用软件第一个走出国门，王江民被誉为中关村最富有传奇色彩的知识英雄。他的事迹激励了一个又一个平凡的年轻人。1王江民出生于1951年山东烟台的一个普通家庭中，他的童年被命运折磨的很惨，王江民从小患有脊髓灰质炎(小儿麻痹症)，导致腿部残障。小学一年级的时候，那条残废的腿被骑自行车的路人压断。而王江民却不愿向命运服输，上天

2020-12-18 11:16:19 1558

原创 python 列表交并补求解

在python中，数组可以用list来表示。如果有两个数组，分别要求交集，并集与差集，怎么实现比较方便呢？当然最容易想到的是对两个数组做循环，即写两个for循环来实现。这种写法大部分同学应该都会，而且也没有太多的技术含量，本博主就不解释了。这里给大家使用更为装bility的一些方法。老规矩，talk is cheap,show me the code#!/usr/bin/env python#coding:utf-8'''Created on 2016年6月9日@author: le

2020-12-18 09:52:41 566

原创 tabelu 一个fixed 级别表达式例子

在此示例中，视图解决以下问题：占总销售额的百分比将如何按产品子类列出？视图包含一个维度筛选器和一个表计算。Tableau 会在执行表计算之前应用维度筛选器。若要反转这些操作的顺序，请使用 FIXED 详细级别表达式来取代表计算。下面是用于构建此视图的步骤。在新工作表中，将“Sales”（销售额）拖到“列”。将“Sub-Category”（子类）拖到“行”。在“列”上右键单击“SUM(Sales)”并选择快速表计算 –“总额百分比”。单击工具栏上的“降序排序

2020-12-18 09:47:22 346

原创 Python 疑难问题：[] 与 list() 哪个快？

# 方法一：使用成对的方括号语法list_a = []# 方法二：使用内置的 list()list_b = list()复制代码上面的两种写法，你经常使用哪一个呢？是否思考过它们的区别呢？让我们开门见山，直接抛出本文的问题吧：两种创建列表的 [] 与 list() 写法，哪一个更快呢，为什么它会更快呢？注：为了简化问题，我们以创建空列表为例进行分析。关于列表的更多介绍与用法说明，可以查看这篇文章1、 [] 是 list() 的三倍快对于第一个问题，使用timeit模块的 .

2020-12-18 06:09:02 193

原创一个例子搞懂 tabelu的上下文筛选器

示例 1：将维度筛选器转换为上下文筛选器本示例以及以下示例使用 Tableau Desktop 附带的“Sample – Superstore”数据源。在此示例中，视图解决以下问题：按总销售额计，纽约市位居前 10 名的客户有哪些？视图包含两个维度筛选器，一个您在“筛选器”对话框的“常规”选项卡上创建的筛选器，以及另一个在“前 N 个”选项卡上创建的筛选器。问题在于，这些筛选器是同时执行的，而您希望常规筛选器在“前 N 个”筛选器之前应用，以便“前 N 个”筛选器可对常规筛选器预先筛选的结果进行

2020-12-17 17:33:06 1251 1

原创 python 列表返回所有元素索引

在列表中使用index方法获取的只是第一个索引，比如想获取列表中的字符'A' >>> lst = ['A', 1, 4, 2, 'A', 3] >>> lst.index('A') 0 如果想获取所有'A'元素的索引列表，可以借助于下面的方法方法一: 常用方法 >>> def get_index1(lst=None, item=''): ... tmp = [] ... ta..

2020-12-14 18:03:27 3851

原创 django中一些反爬措施

写在前面前段时间想着做一个关于反爬的小活动，目前已经做完了，整理了用到的一些反爬。本文所述代码均已上传至 githubhttps://github.com/yejue/thegame2JS断点JS断点是一个用于debugger的断点语句，在全局设置无限的断点，在爬虫尝试打开开发者工具查看前端源码的时候激活，使得前端页面暂停，有一定的阻挡效果。使用方法：<span style="color:#000000"><code class="language-javascri.

2020-12-13 17:01:31 688

原创 python 输出百分比

方式1：直接使用参数格式化：{:.2%}{:.2%}：显示小数点后2位显示小数点后2位：>>> print('percent: {:.2%}'.format(42/50))percent: 84.00%1 2不显示小数位：{:.0%}，即，将2改为0：>>> print('percent: {:.0%}'.format(42/50))percent: 84%1 2方式2：格式化为float，然后处理成%格式：{:.2f}%与方式.

2020-12-12 09:02:17 4872

原创哈希函数的一些知识

什么是哈希函数？哈希函数是一个数学函数，其具有以下三个特性：输入可以为任意大小的字符串；其产生固定大小的输出；对于特定的输入字符串，能在合理时间计算出结果。对应n位的字符串，其哈希值计算的复杂度为O(n)。要使哈希函数达到密码安全，需要附加以下三个特性：碰撞阻力、隐秘性、谜题友好特性1：碰撞阻力这里的碰撞是指对于两个不同的输入，产生相同的输出。如果对于哈希函数H(x)，没有人能够找到碰撞，则称该函数具有碰撞阻力。定义：　　Hash函数H将可变长度的数据块M作为...

2020-12-10 06:44:46 2616

原创 tableau完整案例：使用集值做互动分析

一、数据一览与客户需求在真实的业务场景中，分析始于问题、始于需求，而非开始于数据。所以千万不要拿到数据着急寻找珍珠，否则往往是越看越纠结。我拿到的数据是仅一分钟内的传感器数据，对方临时生成的数据，明显数据结构并非完美，原表中同时包含了原始数据和二次加工的分析数据。对方想要查看的视图，一是左上角分析字段在60秒的波动情况，二是在每秒1000次（专业术语大概是1000Hz）的数值波动，查看波峰波谷，这里分为原始数据和傅里叶数据两种，每秒可以视为一个系列。客户之前使用Excel做了一个模拟，同时展示三

2020-12-07 08:27:05 984

原创【Tableau图表】二维条形码图（Barcode plot）

将销售额字段拖放至列功能区，并调整为维度将地区字段拖放至行功能区调整一下颜色标记卡的透明度为了集中趋势效果好，我将坐标轴，改成了对数轴二维条形码的效果就出来了。为了展示与分析效果，给单元格添加一个平均线。总结一下，其实就是对度量数据不要进行汇总，把所有数据按照坐标位置进行排放。虽然没有调整默认的图表类型设定，但要注意，图表类型是甘特图。...

2020-12-04 04:20:46 720

原创游戏数值策划伤害公式选择

伤害公式的选择这里讲的伤害公式，是和战斗公式存在一点差异的。战斗公式应该包含了造成伤害前的很多判断。伤害公式通常可分为减法公式和乘除法公式两大类。这里我们详细的讨论这两类公式的特点。然后在之后的工作过程中，根据需求选择最合适的战斗公式即可。减法公式伤害 = 攻击 -防御减法公式是那么的清晰易懂。这里我们假设防御为10，看下伤害随攻击的变化。伤害随攻击变化曲线但存在一个大问题：当防御>攻击时，攻击毫无意义，极端情况下伤害变为0。这种设计会导致玩家过分堆积防御属性。也就是说防

2020-12-02 03:15:10 5142

原创 python 基础面向对象

数据挖掘Python基础之面向对象前言之前我们已经学习了Python基本的数据类型，函数与文件读写，接下来我们就来看看Python的面向对象的编程，如果学过类似于Java这种面向对象的编程语言，学起来对比Python的面向对象就会感觉十分的容易，作为一门脚本语言，Python在面向对象方面相较于java更加简洁和方便，少了很多的约束。创建对象和其他语言一样Python使用class关键字来声明一个类,类名采用驼峰命名法，首字母大写。classAnimal:def__i...

2020-12-01 16:11:50 272

原创可能是最好的正则表达式详解！

https://m.linuxidc.com/Linux/2020-05/163192.htm

2020-12-01 15:25:48 195

原创 python re.split 用法

问题:s = '1,2,3,4,a,5,6,7,8,b,9,10,11,12' ['1,2,3,4', '5,6,7,8', '9,10,11,12']要想将上述字符串按要求进行分割，意味着分隔符为',a,'和',b,':针对上述情况，要想利用str.split()取得想要的结果，就要费点劲了，具体实现可见文末;这时，就可以利用re.split()方法了import res = '1,2,3,4,a,5,6,7,8,b,9,10,11,12' re.split(',..

2020-12-01 15:05:37 2919

dudu3332的博客