- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 Python两个字典合并
直接使用Update函数info={ 'stu1101':"tengxun", 'stu1102':"baidu", 'stu1103':"ali",}b={ 'stu1101':"Alex", 1:3, 2:5}info.update(b)#将两个字典合并,存在key,则更新value,不存在key,则合并print(info)输...
2019-11-20 19:41:09 323
原创 k-近邻算法
简介:存在一个样本数据集合,也称作为样本训练集 并且样本集中的每个数据都存在标签 即我们知道样本集中每一个数据与所属分类的对应关系。 输入没有标签的新数据后, 将新的数据的每个特征与样本集中的特征进行比较,然后算法提取样本最相似数据(最邻近)的分类标签。 一般来说 我们只选择样本数据集中前K个最为相似的数据,这就是k-邻接算法中k的出处 通常K是不大于20的整数 。最后选择K个最为相似数据中出现...
2019-11-20 16:16:29 208
原创 Python 字典的键值排序方法
key=operator.itemgetter(1)根据字典的值进行排序key=operator.itemgetter(0)根据字典的键进行排序
2019-11-20 15:32:30 172
原创 Python 字典 dict.get()方法
Python 字典(Dictionary) get() 函数返回指定键的值,如果值不在字典中返回默认值。dict.get(key, default=None)返回指定键的值,如果值不在字典中返回默认值None。...
2019-11-20 15:28:10 1115
原创 Numpy 中 shape函数的简单使用
import numpy as npy = np.array([[1,2],[3,4],[5,6],[7,8])print(y.shape)## (4,2)print(y.shape[0])4print(y.shape[1])2numpy函数shape[0]返回数据集的行数numpy函数shape[1]返回数据集的列数...
2019-11-20 15:02:25 273
原创 Python 简单的算法代码
二分查找def binary_search(number_list, number): first = 0 last = len(number_list) - 1 while first <= last: mid = (first + last) // 2 if number_list[mid] > number: ...
2019-11-16 19:36:53 137
原创 Python 文件逐行读取
通过for-in循环逐行读取with open('xxx.txt', mode='r') as f: for line in f: print(line, end='')后面会做一些简单的补充
2019-11-16 16:11:57 123
原创 sns画图时 区间横坐标的值重叠问题
首先我们执行的代码出现如下图形sns.barplot(data=titanic_df,x="AgeBand",y="Survived",ci=None)解决的办法 的 代码:sns.barplot(data=titanic_df,x="AgeBand",y="Survived",ci=None)plt.xticks(rotation=60)...
2019-11-13 20:31:11 2830
原创 pivot_table的简单介绍
代码来展示`titanic_df.pivot_table(values="Survived",index="AgeBand",aggfunc=pd.Series.count)`titanic_df.pivot_table(values="Survived",index="AgeBand",aggfunc="count")我们会发现 两个代码展现的结果是一样的...
2019-11-13 20:26:34 258
原创 Pandas groupby和数据透视表的使用
方法1:使用经典的分组-聚合-计算(第六节课核心内容)注意:因为Survived是0-1函数,所以均值即表示生还百分比titanic_df[['Pclass', 'Survived']].groupby('Pclass').mean() \ .sort_values(by='Survived', ascending=False)两者等同# 方法2:我们还可以使用pivot_ta...
2019-11-10 19:58:24 624
原创 Pandas 缺失值填充的方法
直接用代码来展示[基于泰坦尼克数据]真实数据往往某些变量会有缺失值。这里,cabin有超过70%以上的缺失值,我们可以考虑直接丢掉这个变量。 – 删除某一列数据像Age这样的重要变量,有20%左右的缺失值,我们可以考虑用中位值来填补。-- 填补缺失值我们一般不提倡去掉带有缺失值的行,因为其他非缺失的变量可能提供有用的信息。-- 删除带缺失值的行普通的方法(直接根据所需要的值来进行填充...
2019-11-10 19:35:10 1814 1
原创 Pandas describle参数
使用include=[np.object]来查看分类变量 只统计 字符串变量 的分布情况count: 非缺失值的个数unique: 非重复值得个数top: 最高频值freq: 最高频值出现次数titanic_df.describe(include=[np.object]) #得出字符串变量的分布情况titanic_df.describe() #得出数值型数据的分布情况...
2019-11-10 18:45:55 259
原创 Pandas map函数在数据处理中的一种使用
直接给出几段代码的示例map为映射函数 在数据处理中经常使用到看实例大概能够理解这个函数的方便之处# 使用map方法,将holiday数据做映射, 0对应'non-holiday', 1对应 'holiday'BikeData['holiday_cat'] = BikeData['holiday'].map( {0: 'non-holiday', 1: 'holiday'} )Bike...
2019-11-10 17:07:19 359
原创 Python seaborn 画图
fig = plt.figure(figsize=(16,4))#添加子箱型图#租车人数的箱线图ax1 = fig.add_subplot(121)sns.boxplot(data=BikeData, y="count")ax1.set(ylabel="Count", title="Box Plot On Count")# 添加第二个子图# 租车人数和时间的箱线图# 商业洞察:...
2019-11-10 16:00:53 733
原创 Strptime与Strftime的区别
strptime在把str转换为datetime格式的时候使用比如说从文件中读取下来的日期 2011-01-01 00:00:00 -----> datetime使用```python import datetime date = datetime.strptime(" 2011-01-01 00:00:00","%Y-%m-%d") type(date) print(...
2019-11-10 15:13:12 592
原创 Python 获取日期对应的星期数
import calendar首先引入calendar中的day_name,列举了周一到周日calendar.day_name[:]# 获取字符串形式的日期dateString = ex.split()[0]# 使用datatime中的striptime函数将字符串转换为日期时间类型# 注意这里的datatime是一个包不是我们dataframe里的变量名# 这...
2019-11-10 15:00:03 2436
原创 统计学上数据的处理和图标的展示原则
1.数据的预处理: 是在对数据分类或者分组之前所做的必要处理 内容包括 数据的审核 筛选 排序 1.1 数据审核:检查数据中是否有错误 主要从完整性和准确性去审核 考虑数据的适用性和时效性 完整性:是否有遗漏 填写是否齐全 准确性:是否有错误 和 异常值[看异常值是否正确] ...
2019-10-26 18:44:46 1732
原创 数据的收集----统计学(第六版)贾俊平
1.数据的来源: 1.1 数据的间接来源:数据是别人通过调查或实验的方式搜集到的 原信息已经存在 我们只是对原数据进行重新加工、整理,使之可以满足我们的需要 渠道:[外部]统计部门、报纸期刊、互联网;[内部]财务报表、公司内部统计资料 搜集二手资料是研究者首先考虑并采用的 分析也应该首先从二手资料开始...
2019-10-26 16:11:56 797
原创 统计学基本概念----统计学(第六版)贾俊平
1.统计学:收集 处理 分析 解释数据并从数据中得出结论的科学 来自各个领域的数据 收集:即是取得统计数据 处理:将数据用图表等形式展现出来 分析:选择适当的统计方法研究数据,并从数据中得出提取有用的信息进而得出结论 2.数据分析方法:1.描述统计方法:数据收集、处理、汇总、图表描述、概括与分析等统计方法 2...
2019-10-26 14:48:09 1179
mysql 查询练习题
2018-12-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人