学习记录
浮点型队友
志闲少欲,心安不惧,形劳而不倦,气从以顺,各从其欲,皆得所愿
展开
-
【Python】数据处理第0步:关于空值和缺失值的处理
关于空值和缺失值:空值:在pandas中,的空值就是空字符串 “”缺失值:np.nan,pd.naT(缺失时间),或None如何定义缺失值、空值?如何判断是否缺失值?如何查找筛选缺失值、空值?见下代码:df = pd.DataFrame({"name": ['Alfred', None, 'Catwoman'], "toy": [np.nan, ...原创 2019-05-25 00:08:45 · 12690 阅读 · 3 评论 -
少即是多:数据分析从业者应该掌握的5个统计基础概念
本文讲述了数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。利用统计学,我们可以更深入、更细致地观察数据是如何...原创 2019-04-24 08:41:25 · 410 阅读 · 0 评论 -
mysql Left join 中的笛卡尔积
表A:select * from z_Atable表B:select * from z_Btable表B中有重复数据。A和B的內连接,即笛卡尔积:select * from z_Atable join z_Btable当on 条件为假时的内连接:select * from z_Atable left join z_Btable on 0表A作为左表,两表做左连接 ...原创 2019-04-19 15:15:29 · 2417 阅读 · 0 评论 -
【Python】pymysql中如何引入正则表达式变量,实现模糊匹配查询
import pymysqlfrom sqlalchemy import *import re# 给定的字符串,希望能在数据库查到它的模糊匹配结果keywd = "color ball pen"# 打开数据库连接conn = create_engine('mysql+pymysql://username:password@192.168.2.xxx:3306/db??charset...原创 2019-04-19 17:37:58 · 1482 阅读 · 0 评论 -
【Python】apply中的多参数函数,调整默认隐性参数位置
前提知识:re.search 的函数:re.search(pattern, string, flags=0)df.aplly()函数# 给定正则表达式,希望从df1['title']中找出匹配它的结果regstr = "color.*ball.*pen"# 自定义匿名函数 search_func,将re.search(x, y)的两个参数位置调换一下(为了df.appy函数中,能够正...原创 2019-04-19 18:13:57 · 5692 阅读 · 4 评论 -
【Python】List 列表中出现次数最多的元素(不使用第三方库)
..不使用第三方库,求出列表中出现次数最多的元素mylist = ['a', 'b', 'b', 'b', 'a', 'c']# 先算出每个元素出现的次数tmp = {i:mylist.count(i) for i in set(mylist)}# 找出次数最大的那个you_want = max(zip(tmp.values(), tmp.keys()))[1]you_want...原创 2019-04-25 15:22:57 · 2927 阅读 · 2 评论 -
【Python小竞赛】ARIMA算法预测三日后招商银行收盘价
本代码主要思路是利用ARIMA算法做时间序列预测预测目标是2019年5月15日A股闭市时招商银行600036的股价考虑到影响股价的因素的复杂性,以及金融投资的反身性理论,本次预测只使用了close的时间序列。更多的数据并没有什么用。导入数据并处理# 导入必须的模块import tushare as ts #使用的公开的数据import numpy as npimport panda...原创 2019-05-13 08:23:55 · 1507 阅读 · 0 评论 -
【学习经典】python 数据聚合与分组运算(part 2)
4. 透视表和交叉表透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。在Python和pandas中,可以通过本章所介绍的groupby功能以及(能够利用层次化索引的)重塑运算制作透视表。DataFrame有一个pivot_table方法,此外还有一个顶级的pandas...转载 2019-07-01 18:54:21 · 384 阅读 · 0 评论 -
是什么让我放弃Jupyter notebook 转投 Spyder
Jupyter notebook 和 Spyder 选哪个?Jupyter 真是带给我一段不错的Python Coding 时间,但是后来发现代码结构稍微复杂点、需要引入自定义模块的时候,jupyter 开始有点考验耐心了。所以转投了 Spyder,就是anaconda自带的编译器。真有点不舍 jupyter。Spyder 的配置并使用自定义模块,非常傻瓜化,无论是同文件目录下的调用,还是跨文...原创 2019-04-22 20:02:44 · 14534 阅读 · 3 评论 -
Easy!! 穿透公司内网,在家远程访问jupyter notebook
我的环境和诉求:公司内网电脑A上装有anaconda,使用 jupter notebook编辑器。公司其他电脑可以通过浏览器,访问电脑A上的 jupyter Notebook。公司的内网也可以上外网(广域网)。我的诉求:如何将公司内网电脑A上的 jupyter notebook 发布到外网,让我在家里的电脑B上,实现对公司电脑A上的Jupyter的访问?因为是公司网络,所以没法配置路由器...原创 2019-04-22 20:42:44 · 2184 阅读 · 4 评论 -
【Python】np.where用法实例:求每行第一个不为空的单元格值
# 求每行第一个不为空的单元格值import pandas as pdimport numpy as npdf = pd.DataFrame({"第一列":[100, np.NaN, 500, np.NaN, 120 ], "第二列":[200, 200, np.NaN, 200, 150], "第三列":[np.Na...原创 2019-03-19 10:08:33 · 4069 阅读 · 0 评论 -
很机智的统计学概念:秩次和秩和
我们通过一个小例子来理解秩次和秩和。先看一组数据:A组4.76.42.63.25.2B组1.72.63.62.33.7什么是秩次按从小到大的顺序,把A组和B组数据统一排序(见下表),然后把它们的次序(即秩次)标记出来。如B组的1.7排序第一,秩次即为1;B组的2.3排序第二,秩次即为2;A组的2.6和B组2.6,分别给一个排序三,四,但是秩次是...原创 2019-01-11 12:16:17 · 30413 阅读 · 1 评论 -
mysql局部变量,会话变量,全局变量极简用法
.mysql中,变量分为三类,局部变量,会话变量,全局变量。局部变量主要用在函数以及存储过程中,定义:declare c int default 0;调用:select c; 记住变量名前不需要加@;会话变量仅对当前客户端连接有效,定义:set @var := ‘abc’;调用:select name = @var; 记住变量前加一个@;全局变量法力无边,什么时候都有效。定义:s...原创 2019-02-16 12:53:57 · 4102 阅读 · 5 评论 -
“小数据”大腾挪:使用pandas.read_clipboard 从剪切板中获取数据
.在python中,有时候需要把几百行或者几千行的“小数据”频繁读取进来。专门为这样的数据建立一个excel或csv文件,然后用read_excel执行读写操作虽然也可行,但是显得特别笨重和繁复:你需要找一个合适的文件存放位置、需要为文件命名(头大!)、需要把长长的文件路径放到代码里并保证路径解析不出错、需要保证文件编码格式正确等等一系列望而却步的操作。今天介绍的这个 pandas.read_...原创 2019-02-22 14:38:19 · 4890 阅读 · 0 评论 -
数据预处理包括哪几步?
数据预处理的目的为了提高数据的质量为了让数据更好地适应特定的挖掘技术或工具数据预处理的主要内容数据清洗数据集成数据变换数据规约一、数据清洗1.1 缺失值处理删除记录,数据插补, 不处理。常用的数据插补方法:- 均值,中位数,众数插补- 使用固定值- 回归方法(预测)- 插值法(拉格朗日插值法,牛顿插值法等)拉格朗日插值多项式:L(x)=∑i=0n(yi∏...原创 2019-02-12 20:01:51 · 32151 阅读 · 2 评论 -
【SQL面试】求出各科成绩前三名的学生和成绩
..求出各科成绩前三名的学生和成绩,与相应的课程。正确的:select a.*from score as aleft join score as bon (a.sourceid = b.sourceid) and (a.score < b.score)group by a.sourceid, a.userid, a.scorehaving count(a.userid) ...原创 2019-07-05 17:43:42 · 6854 阅读 · 2 评论