自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 收藏
  • 关注

原创 Task 01 文件自动化处理-Datawhale

1、文件处理环境:window10,工具pycharm1.1 os.path.join()函数连接两个或更多的路径名组件1.如果各组件名首字母不包含’/’,则函数会自动加上2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃3.如果最后一个组件为空,则生成的路径以一个’/’分隔符结尾import osos.path.join('Datawhale','docu') #Datawhale\docu1.2 获取当前目录以当前目录:E:/python/自动化为例子,import

2021-11-14 18:47:07 1490

原创 Javascript高级程序设计读书笔记_day01

什么是Javascript1995年,Javascript问世,在当时主要用途就是处理输入验证。由于当时只有服务器能够处理输入值是否有效,但服务器处理则需要一次网络通信 ,会导致处理速度缓慢,因此Javascript问世,直接处理输入验证,而无需网络通信。因此Javascript成为浏览器的标配。 1998 年,国际标准化组织(ISO)和国际电工委员会(IEC)也将 ECMAScript 采纳为标准(ISO/ IEC-16262)。自此以后,各家浏览器均以 ECMAScript 作为自己 JavaScr

2021-11-10 17:01:46 547

原创 Task02 DeepFM_深度推荐模型

1、动机对于CTR问题,被证明的最有效的提升任务表现的策略是特征组合(Feature Interaction), 在CTR问题的探究历史上来看就是如何更好地学习特征组合,进而更加精确地描述数据的特点。可以说这是基础推荐模型到深度学习推荐模型遵循的一个主要的思想。而组合特征大牛们研究过组合二阶特征,三阶甚至更高阶,但是面临一个问题就是随着阶数的提升,复杂度就成几何倍的升高。这样即使模型的表现更好了,但是推荐系统在实时性的要求也不能满足了。所以很多模型的出现都是为了解决另外一个更加深入的问题:如何更高效的学习

2021-03-21 23:50:27 235

原创 Task02 数据分析_零心跳信号分类预测

1、目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。2、内容介绍1、载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 mat

2021-03-20 00:16:22 144

原创 Task02 Wide & Deep_深度推荐模型

1、概述在CTR预估任务中利用手工构造的交叉组合特征来使线性模型具有“记忆性”,使模型记住共现频率较高的特征组合,往往也能达到一个不错的baseline,且可解释性强。但这种方式有着较为明显的缺点:特征工程需要耗费太多精力。模型是强行记住这些组合特征的,对于未曾出现过的特征组合,权重系数为0,无法进行泛化。为了加强模型的泛化能力,研究者引入了DNN结构,将高维稀疏特征编码为低维稠密的Embedding vector,这种基于Embedding的方式能够有效提高模型的泛化能力。但是,基于Embeddi

2021-03-18 22:11:10 214

原创 Task01 DeepCrossing_深度推荐模型

1、概述这个模型就是一个真正的把深度学习架构应用于推荐系统中的模型了, 2016年由微软提出, 完整的解决了特征工程、稀疏向量稠密化, 多层神经网络进行优化目标拟合等一系列深度学习再推荐系统的应用问题。 这个模型涉及到的技术比较基础,在传统神经网络的基础上加入了embedding,残差连接等思想,且结构比较简单,对初学者复现和学习都比较友好。DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐, 用户在输入搜索词之后, 搜索引擎除了返回相关结果, 还返回与搜索词相关的广告,Deep

2021-03-17 00:44:47 112

原创 Task01赛题理解_零心跳信号分类预测

1、赛题理解1.1 赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事 —— 心跳信号分类预测。赛题以心电图心跳信号数据为背景,要求选手根据心电图感应数据预测心跳信号所属类别,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。比赛地址:https://tianchi.aliyun.com/competition/entrance/531883/introducti

2021-03-15 00:31:19 293

原创 Task05 异常检测_高维数据异常检测

主要内容包括:Feature Bagging孤立森林文章目录1、概念1.1 高维异常检测的解决方案1.2 方案介绍2、数据降维和维度选择3、Feature Bagging1、概念高维数据异常检测:现实生活中,一般一个数据集含有上千或者上万个维度,由于维护较多,有些异常很难识别出来。所以需要针对高维使用合适的异常检测方法。1.1 高维异常检测的解决方案1)如何做维度选择(或者降维)使得其在异常检测算法上运行效果比较好2)如果分割子空间,有没有什么子空间分割常用的技巧/经验3)若是高维度但又稀

2021-01-24 22:11:52 625 1

原创 Tasl04:异常检测之基于相似度的方法

#异常检测——基于相似度的方法主要内容包括:基于距离的度量基于密度的度量文章目录1、概述2、基于距离的度量1、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。  在普通的数据处理中,

2021-01-21 20:47:07 147

原创 Task03 异常检测之线性模型

1、概述异常检测真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。1.1 线性回归相关性分析:试图通过其他变量预测单独的属性值,一般依据正常值训练出一个模型,然后测试集利用这个模型的值来训练区分哪些为异常数据。线性回归的定义是:目标值预期是输入变量的线性组合。线性模型形式简单、易于建模,但却蕴含着机器学习中一些重要的基本思想。线性回归,是利用数理统计中回归分析,来确定两种或两

2021-01-19 01:13:57 240

原创 Task02:异常检测基于统计学的方法

1、统计学异常检测概述:通常使用统计学进行异常检测,一般要先依据数据训练一个模型,然后依据模型来评估数据是否异常。1.1 统计学常用方法1.1.1 z 分数(标准化)概念:z分数(z-score),也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。如何使用z分数判断异常点:如果将数据进行z分数转化后,其得到的值的绝对值大于三倍标准差,就认为这个样本异常,属于离群点。1.1.

2021-01-16 00:43:06 638

原创 Task01:异常检测介绍

1、异常检测异常检测(Outlier Detection)概述:一般一个数据集包含正常数据和异常数据,正常数据占总数据集较大部分,分布比较均衡,而异常数据一般占总数据集较少部分,分布较分散。生活中的异常:工业生产异常导致异常数据,信用卡漏洞,网络流混进的异常(网络入侵相关的数据注入),一般可能为人为的导致,机器导致,银行欺诈行为、药品问题、结构缺陷、设备故障。1.1 异常检测分类有监督:既有特征值+目标值,有准确的异常测试集以及结果和正常测试集以及导致结果,即可通过训练来进行预测结果,从而规避异常。

2021-01-10 23:43:34 451 2

原创 2020-10-29

1. Kevin商城django安装 :创建django环境:pip install pymysql -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com升级pip安装源:python -m pip install --upgrade pip -i https://pypi.douban.com/simple创建django项目:django-admin startproject kevinshop1创建应用:python

2020-10-29 20:59:51 118

原创 Python基础2

1.if 语句if 语句:if expression: expr_true_suiteif-else语句:if expression: expr_true_suiteelse: expr_false_suiteif - elif - else 语句:if expression1: expr1_true_suiteelif expression2: expr2_true_suite . .elif expressionN:

2020-07-23 23:50:55 89

原创 零基础入门NLP - 新闻文本分类赛题理解-Task2 赛题理解

1.首先读取Excel数据使用pandas进行读取,实现代码如下:import pandas as pdtrain_df = pd.read_csv(’./input/train_set.csv’, sep=’\t’, nrows=100)关于读取read_csv()方法讲解read_csv函数参数几个常用的参数包括path、sep、header、index_col、names、skiprows、na_values、nrows、skip_footer、encoding。下面主要对这几个参数解释

2020-07-21 10:43:21 267

原创 Python基础1

1.注释注释分为单行注释和多行注释。单行注释使用:#多行注释使用:’’’ ‘’’'或者""" “”"2.算数运算符算数运算符有:+ ,- ,* ,/ ,//整除, %求余, ** 幂以及比较运算符,逻辑运算符:and,or,not位运算符:操作符 名称 示例~ 按位取反 ~4& 按位与 4 & 5| 按位或 4 | 5^ 按位异或 4 ^ 5<< 左移 4 << 2右移 4 >> 2print(bin(4))

2020-07-21 09:26:04 113

原创 零基础入门NLP - 新闻文本分类赛题理解-Task1 赛题理解

1.赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。天池报名和数据下载链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.3dd52448U6jClB2.学习

2020-07-21 08:51:36 293

原创 LeetCode-第二高的薪水

1。题目Write a SQL query to get the second highest salary from the Employee table.±—±-------+| Id | Salary |±—±-------+| 1 | 100 || 2 | 200 || 3 | 300 |±—±-------+For example, given the above Employee table, the query should return 200 as

2020-07-17 16:18:04 144 1

原创 LeetCode双边队列-剑指 Offer 59 - I. 滑动窗口的最大值

题目:给定一个数组 nums 和滑动窗口的大小 k,请找出所有滑动窗口里的最大值。示例:输入: nums = [1,3,-1,-3,5,3,6,7], 和 k = 3输出: [3,3,5,5,6,7]解释:滑动窗口的位置 最大值[1 3 -1] -3 5 3 6 7 31 [3 -1 -3] 5 3 6 7 31 3 [-1 -3 5] 3 6 7 51 3 -1 [-3 5 3]

2020-07-17 15:05:32 125

原创 LeetCode队列-933. 最近的请求次数

题目:Write a class RecentCounter to count recent requests.It has only one method: ping(int t), where t represents some time in milliseconds.Return the number of pings that have been made from 3000 milliseconds ago until now.Any ping with time in [t - 300

2020-07-17 11:56:52 131

原创 python队列和栈

python代码实现栈和队列两者区别与概念队列是一种列表,不同的是队列只能在队尾插入元素,在队首删除元素。队列是一种先进先出(First-In-First-Out,FIFO)的数据结构。队列被用在很多地方,比如提交操作系统执行的一系列进程、打印任务池等,一些仿真系统用队列来模拟银行或杂货店里排队的顾客。queue的常用操作:Queue() 定义一个空队列,无参数,返回值是空队列。enqueue(item) 在队列尾部加入一个数据项,参数是数据项,无返回值。dequeue(

2020-07-17 11:27:16 295

原创 English-2

Three Sentences Per Daykeep on going never give upnever put off what you can do today until tomorrowaction speak louder than wordswordsword: stability (n)sentence:in this world,we need a socail stabilityphrase:dynamic stability,relative stability

2020-07-17 10:28:56 9702

原创 django操作指南

1. settings.py项目的整体配置文件设置1.1 APP安装相关在settings.py中的INSTALLED_APPS下添加应用的名称就可以完成安装。1.2数据库相关1.2.1 切换成 mysql 数据库设置:使用命令安装pymysql:pip install pymysql -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com更改setting设置:DATABASES = {‘default’: {‘E

2020-07-16 14:37:58 191

原创 django开发命令

1.celerycelery -A celery_tasks.tasks worker -l info --开启celery2.redissudo service redis start --开启redis3.fdfssudo service fdfs_trackerd start --开启fdfs的trackerdsudo service fdfs_storaged start --开启fdfs的storaged4.ngnixsudo /usr/local/nginx/sbin/ngin

2020-07-12 16:20:47 82

原创 English-1

1.unlikely 不可能发生的事2.transient 暂住3.illusion 幻想4.warehouse 仓库5.counsel 类似医生,律师的建议6.deprive 侮辱7.plumber 管子工,水暖工8.fatigue疲劳疲倦9.lantern 灯笼10. insult 侮辱11. disintegration 瓦解崩溃12. Soviet Union 苏联,苏维埃联盟13. opaque 不透明的14. opacity透明的15. intimidate恐吓1

2020-06-22 09:27:24 129

原创 leetcode13. Roman to Integer

题解1:class Solution:def romanToInt(self, s: str) -> int:dicRoman = {‘I’:1,‘V’:5,‘X’:10,‘L’:50,‘C’:100,‘D’:500,‘M’:1000} num=0 for i in range(len(s)-1): num1 = dicRoman[s[i]] num2 = dicRoman[s[i+1]] if num1>=

2020-06-09 10:03:56 110

原创 leetcode9. 回文数

解法一:字符串反转,加判断解决class Solution:def isPalindrome(self, x: int) -> bool:if x>=0:a = int((str(x)[::-1]))if a==x:return Trueelse:return Falseelse:return False解法2:list的pop函数def isPalindrome(x: int) -> bool:lst = list(str(x))while len(lst)

2020-06-08 14:36:13 87

原创 Python公式集合

1.python复制反转用法说明,b = a[i:j] 表示复制a[i]到a[j-1],以生成新的list对象a=‘python’ ,则a[1,3]为341反转[::-1]表示将数组从头反转例子:

2020-06-08 10:05:38 1101

原创 零基础入门CV赛事-Task5 模型集成

非监督学习之k-meansK-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。1.首先,随机设K个特征空间内的点作为初始的聚类中心。2.然后,对于根据每个数据的特征向量,从K个聚类中心中寻找距离最近的一个,并且把该数据标记为这个聚类中心。3.接着,在所有的数据都被标记过聚类中心之后,根据这些数据新分配的类簇,通过取分配给每个先前质心的所有样本的平均值来创建新的质心重,新对K个聚类中心做计算。4.最后,计算旧和新质心之间的差异,如果所有的

2020-06-02 22:28:14 81

原创 零基础入门CV赛事-Task4 模型训练与验证

1. 分类算法之k-近邻k-近邻算法采用测量不同特征值之间的距离来进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高使用数据范围:数值型和标称型一个例子弄懂k-近邻电影可以按照题材分类,每个题材又是如何定义的呢?那么假如两种类型的电影,动作片和爱情片。动作片有哪些公共的特征?那么爱情片又存在哪些明显的差别呢?我们发现动作片中打斗镜头的次数较多,而爱情片中接吻镜头相对更多。当然动作片中也有一些接吻镜头,爱情片中也会有一些打斗镜头。所以不能单纯通过是否存在打斗镜头或

2020-05-30 22:28:26 305

原创 零基础入门CV - Task 03 字符识别模型.md

1. 数据特征提取学习了解数据特征的概念,实现用python进行数据特征提取。以sklearn为例进行学习我们将城市和环境作为字典数据,来进行特征的提取。sklearn.feature_extraction.DictVectorizer(sparse = True)将映射列表转换为Numpy数组或scipy.sparse矩阵sparse 是否转换为scipy.sparse矩阵表示,默认开启方法fit_transform(X,y)应用并转化映射列表X,y为目标类型inverse_trans

2020-05-26 22:25:29 121

原创 零基础入门CV赛事-Task2 数据读取与数据扩增

1. 目的实现图片的数据读取与数据扩增和Pytorch读取赛题数据2. 学习目标学习Python和Pytorch中图像读取学会扩增方法和Pytorch读取赛题数据3.图像读取技术学习使用Pillow和OpenCV进行图像读取,学习数据扩增库torchvision4.Pytorch读取数据使用Pytorch进行数据读取代码:import os, sys, glob, shutil, jsonimport cv2from PIL import Imageimport numpy as

2020-05-21 17:23:00 133

原创 零基础入门CV赛事-Task1 赛题理解

1.新建GitHub仓库先在GitHub上新建一个项目用于记录2.赛题理解2.1理解赛题背景和赛题数据最终达成识别天池报名的后获得的数据图片中的数字。2.2 天池报名1)点击比赛连接:https://tianchi.aliyun.com/competition/entrance/531795/introduction填写个人信息后报名成功,如下图:2)数据获取点击赛季与数据下载对应的csv文件,里面包含所需要的赛题数据。csv内容,依据网址下载对应的数据,用于做识别3. 环境配

2020-05-20 15:01:01 146

原创 SQL Exists总结

1.概述1.1 Exists和IN的介绍例:SELECT * FROM A WHERE EXISTS (SELECT * FROM B ON A.ID=B.ID)Exists执行过程:先执行主查询,一个一个去遍历子查询例:SELECT * FROMM A WHERE ID IN (SELECT ID FROM B)IN执行过程 :先执行子查询,后执行主查询1.2 Exists和IN应...

2020-05-06 16:12:05 239

原创 kevin-miller

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-03-07 22:16:25 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除