- 博客(22)
- 收藏
- 关注
原创 逻辑回归原理
百度的定义: logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重
2022-05-22 17:42:30 510
原创 决策树的思想
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。例如决策树划分方法决策树的优缺点def decision(): """ 决策树对泰坦尼克号进行预测生死 :return: None """ # 获取数据 titan = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/
2022-05-22 10:56:37 313
原创 线性回归的定义
线性模型:通过属性的线性组合来进行预测的函数:线性回归:通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合一元线性回归:涉及到的变量只有一个多元线性回归:涉及到的变量两个或两个以上损失函数(误差大小)有被成为最小二乘法是很亮误差大小使用,方便记忆为误差平方和损失函数的作用是:求模型当中的W,使得损失最小? (目的是找到最小损失对应的W值)进行损失函数后优化的方法有1.正规方程(不建议使用)2.梯度下降
2022-05-22 00:25:26 1060
原创 股票数据分析
1.首先下载tushare包tushare 财经数据接口包import tushare as tsimport pandas as pdfrom pandas import DataFrame, Seriesimport numpy as np##1.获取某只股票的历史行情数据#code字符串形式的股票代码 start股票上市时间df = ts.get_k_data(code = "600519",start= "2000-01-01")print(df)#将互联网上获取的股票
2022-05-15 15:44:45 3396
原创 机器学习 -朴素贝叶斯
贝叶斯的定义: 一件事发生的可能性联合概率:是多个条件同时成立的概率条件概率:事件A在事件B发生条件下的概率注:朴素的含义又称为概率贝叶斯使用的优缺点:特别提醒:为了防止在贝叶斯计算的过程中出现概率为0的情况。建议使用拉普拉斯平滑方法。理解拉普拉斯平方法 实际操作是 同时在数据中加上一样的数值,进行计算。注:贝叶斯计算出来的准确性无法进行进一步的提高。贝叶斯的计算方法受到数据质量影响大贝叶斯适用于文本分析,如对于文章,电影类型关键词的提取后对其他文章和
2022-05-15 15:37:35 357
原创 pandas
时间序列1.分组,遍历后有多少个数组2.构建全为0的数组3.赋值4.时间序列拆分 pd.date_range。例如:当数据日期为20200101类型的数据,将想要提取的数据进行提取。提取格式start开始日期,end结束日期,freq间隔方式pd.date_range(start="20171230",end="20180130",freq="D") 重采样:时间序列从一个频率转化为另一个频率进行处理的过程,将高频率装维低频率数据为降采样,低频率转化为高频率为升采样5.时间序列
2022-05-03 20:09:36 770
原创 数据的集合和分类-字符串的离散化
其中有一个字段是genre,代表电影分类,而且一个电影可能有好几个分类,以“,”分隔,现在要统计每个分类的电影数。思路:要统计每个分类,首先需要知道有多少分类情况 重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变为1。如下列表格 import numpy as npimport pandas as pdfrom matplotlib import pyplot as pltfile = "文件所在位置csv"df = pd.read_csv(file)...
2022-04-19 15:04:57 149
原创 panads
1.panads改变索引import pandas as pdt = pd.Series([1,1,2,4,12,56,32])print(t)#index 是前面的索引 将1-5改成a-et2 = pd.Series([1,1,12,56,32],index=list("abcde"))print(t2)t2.dtype #查看字符类型t2.astype(float) #变动字符类型2.读取数据--1.输入pymongo2.定义数据文件所在文件夹from pymo
2022-04-18 15:05:04 1128
原创 numpy
numpy的基本用法 import numpy as npt1 = np.arange(12).reshape((3, 4)).astype("float")t1[1, 2:] = np.nanprint(t1)def file_ndarray(t1): for i in range(t1.shape[1]): # 遍历每一列 temp_col = t1[:,i] # 当前的一列 #判断当前数据是否含有nan ..
2022-04-14 15:19:44 110
原创 matplotlib-01
1.基础线图和X轴的调整import matplotlib.pyplot as pltimport randomx = range(0, 120)y = [random.randint(20, 35) for i in range(120)]# 设置图片大小fig = plt.figure(figsize=(15, 8), dpi=80)# 绘图plt.plot(x, y)# 设置X的刻度_x =list(X)[::3] #间隔10_x.ticks_labels= ["10
2022-04-10 00:23:51 379
原创 【无标题】
1-递归算法递归算法原理计算N的阶段、乘法、(5*4*3*2*1)def factorial(n): if n ==1: return n else: return n *factorial(n-1)print(factorial(5))2-目录树结构展示import osdef getAllFiles(path): childFiles = os. lisrdir(path) for file in
2022-04-03 16:29:04 88
原创 第九天打卡
#try_except 基本结构while True: try: x = int(input('请输入一个数字')) print('请输入数字:',x) if x>=100: print('输入错误') break except BaseException as e: print(e) print('异常,输入不是数字')print('循环数字输入程序结束').
2022-04-01 17:18:07 87
原创 打卡第八天-Reform code
# 测试方法的动态性class person: def work(self): print('努力上班')def play_game(s): print('{0}在玩游戏'.format(s))def work2(s): print('好好工作,努力上班,赚大钱')person.play = play_gamep = personp.work()p.play() # person.play(p)person.work = work.
2022-03-31 21:16:03 123
原创 第7天作业---类
#nonlocal 在内部函数里调用外部函数a= 100def outer(): b=10 def inner(): nonlocal b print('inner:',b) #声明外部函数的局本部变量 b=20 inner() print('outer b:',b) #申明全部变量outer()print('a:',a)#测试LEGBprint(type(30))#str='miaomiaoshihe.
2022-03-30 17:31:18 97
原创 第六天记录
# 测试结果暂时没出来import mathimport timedef test01(): start = time.time() for i in range(10000000): math .sqrt(30) end = time.time() print('耗时[0]'.format((end-start)))def test02(): b = math.sqrt start = time.time() for i .
2022-03-28 17:49:19 75
原创 第6天打卡-for,while循环,迭代,画棋盘
#1-100的累加num2 = 0sum =0while num2<=100: sum =sum +num2 num2 +=1print('累加:',sum)##forfor x in(10,20,30): print(x*30)for y in "abcdef": print(y)d = {'name':'高琪','age':18,'job':'程序猿'}for x in d: print(x)for x in d.keys().
2022-03-26 10:57:34 399
原创 记录第四天
#删除和修改a ={'name':'gaoqiao',"age":18,"dd":[2,3,4]}b ={'name':'xingxing','age':'18','job':'programmer','monry':'1000','sex':'男'}a.update(b)a#元素删除可以使用del()a.clear()a#popitema.popitem()a##x,y,z=(20,30,10)xyz(a,b,c)=(9,8,10)ab#r1 ={'nam.
2022-03-24 23:17:53 88
原创 4天的打卡记录
# 列表删除A = [10, 20, 30]del A[2]A# POP() 默认操作最后一位元素a = [10, 20, 30]b = a.pop()b# remove() 删除首次出现的指定元素,若元素不存在则出现异常a = [10, 20, 30, 40, 50, 60]c = a.remove(20)ca = ["明天出去吗?", "不,要去做核酸"]a.remove('明天出去吗?')a##index()获得指定元素在列表中首次出现的索引a = [10, .
2022-03-23 23:59:41 80
空空如也
结核病传染病动力学参数确定的问题?优化问题?
2022-11-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人