Python与数据分析
水木小僧
这个作者很懒,什么都没留下…
展开
-
特征提取方法: one-hot 和 TF-IDF
这篇博客讲的one-hot 和 TF-IDF很清楚:特征提取方法: one-hot 和 TF-IDF侵删。转载 2018-04-08 16:31:32 · 574 阅读 · 0 评论 -
Python数据分析之pandas学习的代码部分
以下代码为我在学习《Python数据分析之pandas学习》是所敲的代码。原文章地址:Python数据分析之pandas学习代码如下:#-*- coding: UTF-8 -*-'''Python数据分析之pandas学习博客地址:https://www.cnblogs.com/nxld/p/6058591.html'''import numpy as npimport pandas...原创 2018-04-04 16:23:30 · 633 阅读 · 0 评论 -
python中的axis=0,axis=1
最近关于axis=0,axis=1到底指代是行还是列很困惑。然后搜到了知乎上关于axis的指代问题:https://www.zhihu.com/question/58993137高票回答很棒! 总的来说: axis的 0轴匹配的是index, 涉及上下运算,跨行;1轴匹配的是columns, 涉及左右运算,跨列。要是理解不了还是悄悄记下来吧:TensorFlow里面的函数tf.nn.soft...原创 2018-05-10 20:01:59 · 2291 阅读 · 0 评论 -
sklearn中的random_state
很多人都把random_state解释为随机数种子。是不是很懵逼?什么是随机数种子?我也不知道什么是随机数种子。但是,随机数种子是为了保证每次随机的结果都是一样的Example:sklarn可以随机分割训练集和测试集(交叉验证),只需要在代码中引入model_selection.train_test_split就可以了代码:from sklearn import model_selectionx...原创 2018-05-22 16:58:13 · 39112 阅读 · 4 评论 -
python list中的元素类型转换与字符串拼接且拼接后保持元素间相对顺序不变
引子: 今天碰上了个问题:数据中的时间被分开了。我们常见的时间格式是时间列为一列,比如:2018-07-30 14:54。这是一个数据,在excel / csv中占一个单元格。但是今天遇到的数据是年月日和时分秒是分开的,如下图所示,第一列是年月日,第二列是时分秒,最可恶的是时分秒还是int型的。需要把时分秒补全然后转换成时间格式。正文:有一个int型的list,需要按顺序拼接...原创 2018-07-30 16:30:20 · 1092 阅读 · 0 评论 -
python分块读取大数据,避免内存不足
import pandas as pddef read_data(file_name): ''' file_name:文件地址 ''' inputfile = open(file_name, 'rb') #可打开含有中文的地址 data = pd.read_csv(inputfile, iterator=True) loop = True ...原创 2018-08-02 21:24:29 · 10694 阅读 · 5 评论 -
滑动t检验代码(Python)
最近在做时间序列突变点检测,找了好久发现没有Python的代码,于是跟着公式写了一个,如果有不对的地方,欢迎大家批评指正。代码如下:import numpy as npimport matplotlib.pyplot as pltdef huaT(inputdata): inputdata = np.array(inputdata) n = inputda...原创 2018-10-26 09:45:17 · 8471 阅读 · 3 评论 -
数据清洗总结笔记
1.删除多列def drop_multiple_col(col_names_list, df): ''' AIM -> Drop multiple columns based on their column names INPUT -> List of column names, df OUTPUT -> updated df...原创 2019-02-12 21:27:27 · 750 阅读 · 0 评论