Python
文章平均质量分 80
Python
如是我闻__一时__
菜鸟一枚,多多指教
展开
-
【Datawhale第25期组队学习】Task04:基于相似度的方法
Task04 基于相似度的方法文章目录Task04 基于相似度的方法1 基于距离的方法1.1 基于索引的方法1.2 基于单元格的方法1.3 KNN算法及其实现2 基于密度的方法2.1 基于密度的度量2.2 LOFLOF实战3 总结4 参考资料在本系列的第一篇博客中,我们提到了有基于相似度的异常检测算法,这一个博客中我将对这类算法做具体的阐述。基于相似度的方法一般分类两类:一是基于距离的方法,二是基于密度的方法。1 基于距离的方法 基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最原创 2021-05-18 20:36:56 · 329 阅读 · 1 评论 -
【Datawhale第25期组队学习】Task03:基于线性模型的异常检测
Taks03 基于线性模型的异常检测文章目录Taks03 基于线性模型的异常检测0 写在前面1 概述2 线性回归2.1 基于自变量与因变量的线性回归2.1.1梯度下降法优化目标函数2.1.2最小二乘法的正规方程法优化目标函数2.1.3 两种方法的比较2.2 基于异常检测的线性回归3 主成分分析13.1 原理推导3.2 归一化问题3.3 PCA算法实现4 总结5 参考资料0 写在前面上一个博客中,我们讨论了基于统计学的异常检测算法,其中还通过pyod库展示了两个demo,分别是一元正态分布的例子和HBO原创 2021-05-17 15:45:43 · 196 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 7数据泄露
In this tutorial, you will learn what data leakage is and how to prevent it. If you don’t know how to prevent it, leakage will come up frequently, and it will ruin your models in subtle and dangerous ways. So, this is one of the most important concepts for原创 2021-05-15 08:34:29 · 300 阅读 · 3 评论 -
【kaggle官方教程英文原版】中级机器学习 6复合树模型
In this tutorial, you will learn how to build and optimize models with gradient boosting. This method dominates many Kaggle competitions and achieves state-of-the-art results on a variety of datasets.IntroductionFor much of this course, you have made pre原创 2021-05-15 08:33:18 · 204 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 5交叉检验
In this tutorial, you will learn how to use cross-validation for better measures of model performance.IntroductionMachine learning is an iterative process.You will face choices about what predictive variables to use, what types of models to use, what ar原创 2021-05-15 08:31:00 · 195 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 4管线pipeline
In this tutorial, you will learn how to use pipelines to clean up your modeling code.IntroductionPipelines are a simple way to keep your data preprocessing and modeling code organized. Specifically, a pipeline bundles preprocessing and modeling steps so原创 2021-05-15 08:29:40 · 217 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 3类别变量
In this tutorial, you will learn what a categorical variable is, along with three approaches for handling this type of data.IntroductionA categorical variable takes only a limited number of values.Consider a survey that asks how often you eat breakfast原创 2021-05-15 08:28:28 · 243 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 2缺失值
In this tutorial, you will learn three approaches to dealing with missing values. Then you’ll compare the effectiveness of these approaches on a real-world dataset.IntroductionThere are many ways data can end up with missing values. For example,A 2 bed原创 2021-05-15 08:26:43 · 353 阅读 · 0 评论 -
【kaggle官方教程英文原版】中级机器学习 1引言
Welcome to Kaggle Learn’s Intermediate Machine Learning micro-course!If you have some background in machine learning and you’d like to learn how to quickly improve the quality of your models, you’re in the right place! In this micro-course, you will accel原创 2021-05-15 08:25:00 · 179 阅读 · 0 评论 -
【Datawhale第25期组队学习】Task02:基于统计学的异常检测算法
Task02:基于统计学的异常检测算法文章目录Task02:基于统计学的异常检测算法0 写在前面1 基于统计学的异常检测算法概述2 参数化方法2.1 基于正态分布的一元异常点检测2.2 基于正态分布的多元异常点检测3 非参数化方法4 基于角度的方法5 HBOS6 总结参考文献0 写在前面上篇文章,我们从异常检测的概念、异常检测方法、异常检测应用、异常检测面临的挑战和未来研究方向等方面对异常检测进行了全方位的介绍。本篇文章,我们将视角回到异常检测算法上来,下面将详细介绍基于统计学的异常检测算法.1原创 2021-05-14 16:19:22 · 590 阅读 · 2 评论 -
1672. 最富有客户的资产总量【简单】
给你一个m x n的整数网格 accounts,其中 accounts[i][j]是第i 位客户在第j 家银行托管的资产数量。返回最富有客户所拥有的** 资产总量 **。客户的 资产总量 就是他们在各家银行托管的资产数量之和。最富有客户就是** 资产总量 **最大的客户。示例 1:输入:accounts = [[1,2,3],[3,2,1]]输出:6解释:第 1 位客户的资产总量 = 1 + 2 + 3 = 6第 2 位客户的资产总量 = 3 + 2 + 1 = 6原创 2021-04-12 16:26:02 · 100 阅读 · 0 评论 -
771. 宝石与石头【简单】
给定字符串J 代表石头中宝石的类型,和字符串 S代表你拥有的石头。 S 中每个字符代表了一种你拥有的石头的类型,你想知道你拥有的石头中有多少是宝石。J 中的字母不重复,J 和S中的所有字符都是字母。字母区分大小写,因此"a"和"A"是不同类型的石头。示例 1:输入: J = “aA”, S = “aAAbbbb”输出: 3示例 2:输入: J = “z”, S = “ZZ”输出: 0class Solution(object): def numJewelsInStones(s原创 2021-04-12 16:23:03 · 82 阅读 · 0 评论 -
1480. 一维数组的动态和【简单】
1480 一维数组的动态和给你一个数组 nums 。数组「动态和」的计算公式为:runningSum[i] = sum(nums[0]…nums[i]) 。请返回 nums 的动态和示例 1:输入:nums = [1,2,3,4]输出:[1,3,6,10]解释:动态和计算过程为 [1, 1+2, 1+2+3, 1+2+3+4] 。示例 2:输入:nums = [1,1,1,1,1]输出:[1,2,3,4,5]解释:动态和计算过程为 [1, 1+1, 1+1+1, 1+1+1+1原创 2021-04-12 16:20:01 · 124 阅读 · 0 评论 -
【python数据分析】足球运动员的特征分析
写在前面本文是跟哔哩哔哩的一个教程一步一步实现做的,视频链接献上。【一小时快速入门】python数据科学分析实战 数据集概况数据集包含的是2017年所有活跃的足球运动员本次数据集的来源是kesci,提供者是UstinianName 姓名Nationality 国籍National_Position 国家队位置National_Kit 国家队号码Club 所在俱乐部Club_Position 所在俱乐部位置Club_Kit 俱乐部号码Club_Joining 加入俱乐部时间Co原创 2020-12-22 09:44:14 · 2303 阅读 · 8 评论 -
【python机器学习】感知器算法(基于鸢尾花数据集实现)
写在前面感知器是一种人工神经网络,其模拟生物上的神经元结构感知器是一个二分类器,净输入为:z = W.T*X = w0 + w1x1 + w2x2 + w3x3 + … + wnxn然后通过激活函数将z映射[-1,1] (与阈值theta比较)算法内部只用梯度下降数据集资源本文基于鸢尾花 数据集实现数据集:数据集网盘下载提取码:p2v9读取数据集&数据集处理data = pd.read_csv(r"dataset/iris.arff.csv")# data.head()#原创 2020-12-21 11:00:11 · 2747 阅读 · 0 评论 -
【python机器学习】聚类算法K-means(基于顾客购物订单数据集)
写在前面k-means是一种最流行的聚类算法,属于无监督学习k-means可以在数据集分为相似的组(簇),使得组内数据的相似度较高,组间之间的相似度较低。k-means算法步骤:1.从样本中选择k个点作为初始簇中心2.计算每个样本点到各个簇的距离,将样本划分到距离最近的簇中心对应的簇中。3.根据每个簇中的所有样本,重新计算簇中心,并更新。4.重复步骤2与3,直到簇中心的位置变化小于指定的阈值或者达到最大迭代次数为止本文基于顾客购物订单数据集数据集:数据集网盘下载提取码:p2v9原创 2020-12-21 09:44:35 · 6309 阅读 · 22 评论 -
【python机器学习】逻辑回归算法实现(基于鸢尾花数据集)
注意逻辑回归是分类模型!!!本次实验我们做二分类任务,鸢尾花数据集有三个分类,那我们需要选择两个类。逻辑回归内部也使用梯度下降算法数据集资源本文基于鸢尾花 数据集实现数据集:数据集网盘下载提取码:p2v9数据集简单处理import numpy as npimport pandas as pddata = pd.read_csv(r"dataset/iris.arff.csv")#data# 删除重复记录data.drop_duplicates(inplace=True)#原创 2020-12-20 20:28:44 · 3616 阅读 · 1 评论 -
【python机器学习】线性回归--梯度下降实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-20 16:33:49 · 3622 阅读 · 16 评论 -
【python机器学习】线性回归--最小二乘法实现(基于波士顿房价数据集)
导入库import numpy as npimport pandas as pd波士顿房价数据集字段说明crim 房屋所在镇的犯罪率zn 面积大于25000平凡英尺住宅所占比例indus 房屋所在镇非零售区域所占比例chas 房屋是否位于河边 如果在河边,值1nox 一氧化氮的浓度rm 平均房间数量age 1940年前建成房屋所在比例dis 房屋距离波士顿五大就业中心的加权距离rad 距离房屋最近的公路tax 财产税收额度ptratio 房屋所在镇师生比例black 计算原创 2020-12-19 20:30:53 · 2907 阅读 · 2 评论 -
【python机器学习】KNN算法实现回归(基于鸢尾花数据集)
导入库import numpy as npimport pandas as pd读取数据集data = pd.read_csv(r"dataset/iris.arff.csv")#删除不需要的class列,因为现在进行回归预测,类别信息就没用了。data.drop("class",axis=1,inplace=True)#删除重复的记录data.drop_duplicates(inplace=True)KNN算法实现class KNN: """使用python实现K近邻算法原创 2020-12-19 20:17:35 · 1558 阅读 · 4 评论 -
【python机器学习】KNN算法实现分类(基于鸢尾花数据集)
KNN(k-nearest neighbor)算法,即K近邻算法。当需要表示一个样本(值)时,就使用与该样本最接近的K个邻居来决定。KNN既可以用于分类,也可以用于回归。KNN算法过程:1.从训练集中选择离待预测样本最近的k个样本2.根据这k个样本计算待预测样本的值(属于哪个类别或者一个具体的数值)本文基于鸢尾花 数据集实现数据集准备:import numpy as npimport pandas as pd#数据集准备 鸢尾花数据集#读取鸢尾花数据集,header参数来指定标题的行,默认原创 2020-12-19 09:06:26 · 2427 阅读 · 8 评论 -
【python基础】用户输入和while循环
7.1函数input()的工作原理message = input("Tell me something ,and I will repeat it back to you:")print(message)7.1.1使用int()来接受整数输入number = input("请输入一个数字试试看:")print(number)print(type(number))22<class ‘str’>number = int(input("请输入一个数字再来看看"))print原创 2020-12-14 15:49:35 · 210 阅读 · 1 评论 -
【python基础】函数
8.1定义函数def greet_user(): '''显示简单的问候语''' print("Hello!")greet_user()Hello!8.1.1 向函数传递消息def greet_user(username): '''显示简单的问候语''' print("Hello,"+username.title()+'!')greet_user("Zhanghaokun")Hello,Zhanghaokun!8.1.2 形参和实参上面案例中usernam原创 2020-12-14 15:41:08 · 162 阅读 · 0 评论 -
【python基础】字典
6字典6.1一个简单的字典alien_0 = {'color':'blue','points':5}print(alien_0)print(alien_0['color'])print(alien_0['points']){‘color’: ‘blue’, ‘points’: 5}blue56.2使用字典6.2.1访问字典中元素alien_0 = {'color':'blue','points':5}new_points = alien_0['points']print("Yo原创 2020-12-14 15:33:14 · 343 阅读 · 3 评论 -
【python基础】if语句
5.2条件测试cars = ['bmw','audi','toyota','subaru']for car in cars: if car == 'bmw': print(car.upper()) else: print(car)BMWauditoyotasubaru5.2.1 检查是否相等car = "bmw"car == "bmw"Truecar = "audi"car == "bmw"False5.2.2 检查是否相等时原创 2020-12-14 15:26:57 · 158 阅读 · 0 评论 -
【python基础】初识列表
#####################列表基础############################## 3 列表是什么club = ["hotspurs","livepool","manchester city","Chelsea","arsenal","..."]print(club)# 访问列表元素print(club[2])print(club[2].title())## 使用列表中的元素massage = "我最喜欢的足球队是---"+club[4].title()+".原创 2020-12-10 20:04:24 · 94 阅读 · 0 评论 -
#决策树python# 计算属性的信息增益
原创 2020-04-19 22:07:10 · 829 阅读 · 0 评论 -
对分段函数进行绘图
'''x yX<0 00≤x<5 x5≤x<10 3x-510≤x<20 0.5x-220≤x 0'''import matplotlib.pyplot as plt #数据可视化模块import numpy as npdef f(x): if x<0: return...原创 2019-04-11 18:08:16 · 1903 阅读 · 0 评论 -
第三次python作业--- 使用所学序列数据结构知识完成一个模拟的图书借阅管理系统。
设计不是很系统化,功能不是很完善。。。。#图书借阅管理系统#date: 2019-03-20#author: A fan of ArsenalstudentDatabase=dict() #生成一个书籍的数据库字典borrowDatabase=dict() #生成一个借阅的数据库字典print("**********欢迎来到图书管理系统**********")print...原创 2019-04-11 18:10:49 · 413 阅读 · 0 评论 -
python第六次作业----爬取学校官网
题目描述用到的知识点:正则表达式,爬虫相关的简单知识.python代码import urllib.requestimport re#入口网址url = 'http://www.zzu.edu.cn/'#进入链接地址进行读取data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')s...原创 2019-04-15 22:04:25 · 2110 阅读 · 1 评论 -
python---面向对象程序设计之图书管理系统
class Student: StudentDataBase=dict() #学生数据库 def __init__(self,student_name='',student_id=0): """初始化""" self.setstudent_name(student_name) self.setstudent_id(student_i...原创 2019-05-08 12:48:34 · 2138 阅读 · 0 评论 -
函数设计---汉诺塔问题
问题描述据说古代有一个梵塔,塔内有三个底座A,B,C,A座上有64个盘子,盘子大小不等,大的在下,小的在上。有一个和尚想把这64个盘子从A座移到C座,但每次只能允许移动一个盘子。在移动盘子的过程中可以利用B座,但任何时刻3个座上的盘子都必须始终保持大盘在下、小盘在上的顺序。如果只有一个盘子,则不需要利用B座,直接将盘子从A移动到C即可。编写函数,接收一个表示盘子数量的参数和分别表示源、目标、...原创 2019-04-18 15:23:07 · 1178 阅读 · 0 评论 -
python统计某一文件夹下的文件个数(以统计学生实验报告的情况为例)
题目描述:假如E盘中有上机测试目录,里面包含实验1 实验2 实验3而实验123里面存放着学生上交的实验报告,格式为docx(doc)。现在要求统计出这些学生上交的作业次数,结果以excel形式给出。知识点:python文件操作,正则表达式。涉及的python库:os os.path re xlsxwriter代码:import osimport os...原创 2019-05-15 18:08:02 · 1360 阅读 · 0 评论 -
实验9----文件操作
1.有一英语文本文件,编写程序,使其中的小写字母变大写,大写字母变小写。with open('d:\\text.txt','r') as file: lines=file.readlines()list1=[i.swapcase() for i in lines]with open('d:\\text.txt','w') as f: f.writelines(list1)...原创 2019-05-11 06:33:30 · 387 阅读 · 0 评论 -
python查看内存使用情况
import timefrom memory_profiler import profile@profile #修饰器def Add1(n): '''递推的运算累加和''' sum=0 for i in range(1,n+1): sum+=i return sumn=inp...原创 2019-05-16 13:12:19 · 1704 阅读 · 2 评论 -
《python程序设计基础(第3版)》第9章 GUI课后习题
1.设计一个窗口,并放置一个按钮,单机按钮后弹出颜色对话框,关闭颜色对话框后提示选中的颜色。import wxclass COLOR(wx.Frame): def __init__(self, superion): wx.Frame.__init__(self, parent=superion, title='COLOR', size=(400,200)) ...原创 2019-06-04 12:53:17 · 2754 阅读 · 0 评论 -
python GUI写图书馆管理系统
'''GUI图书馆管理系统@author:Arsenal_Ramsey@time:2019/5/31@进度:。。。'''import wxstudentDatabase=dict() bookDatabase=dict() borrowDatabase=dict() class STUDENTADD(wx.Frame): def __init__(s...原创 2019-06-05 19:10:30 · 7401 阅读 · 16 评论 -
第六次python作业--用正则表达式的方法统计字符串中各种字符的个数
统计输入字符串中英文字母、数字、空格和其他字符出现的次数。import reletter=0number=0space=0other=0x=input("请输入字符串:")pattern1=re.compile(r'\b[a-zA-Z]{1}\b')pattern2=re.compile(r'[0-9]')pattern3=re.compile(r' ')for i in...原创 2019-04-11 18:01:16 · 3002 阅读 · 0 评论