自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

菜菜的博客

愿你自律如日出日落

  • 博客(72)
  • 资源 (1)

原创 利用LSTM长短期记忆算法分析猪肉价格未来走势

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers.recurrent import LSTMfrom sklearn.preprocessing import MinMaxScalerfrom

2020-09-06 23:39:32 53 2

原创 行业案例分析1------------经营分析报告方法

1、七问法5W2H:why(何因)、what(何事)、who(何人)、when(何时)、where(何地)、how(如何做)、how much(何价)

2020-08-30 22:20:33 36

原创 2020年基于anaconda安装TensorFlow注意不要使用清华园的镜像了!!!

pip --default-timeout=1000000 install -U -i https://pypi.doubanio.com/simple/ --upgrade tensorflow-gpu==2.3.0 这样还可以防止超时,还是指定版本conda config --add channels https://pypi.doubanio.com/simple/ --upgrade tensorflow-gpu==2.3.0按enter(%%这句指定了清华镜像下载资源路径)再输入:co

2020-08-09 16:42:05 253

原创 数据挖掘算法之-----KNN算法

1、KNN概念KNN算法:K-Nearest Neighbor,K近邻算法,即K个最近的邻居(近朱者赤近墨者黑)KNN即可用于分类,也可用于回归分类预测时,使用K个邻居中,类别数量(或加权后)作为预测的结果回归预测时,使用K个邻居的均值(或加权后),最为预测结果2、超参数概念超参数:人为指定,超参数不同对模型效果影响很大2.1、K值K值大,容错性增加,敏感性降低,易导致欠拟合K值小,容错性降低,敏感性增加,易导致过拟合极端情况,使用整个样本数量作为K值,那么无论预测值在哪,结果都

2020-07-19 23:03:22 35

原创 Python enumerate() 函数用于for循环

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。Python 2.3. 以上版本可用,2.6 添加 start 参数。遍历列表,并得到索引,索引值从0开始x=['d','e','f']for i,j in enumerate(x): print(i,j)结果0 d1 e2 f配合笛卡尔积使用for循环,相当于双层for循环笛卡尔积用于遍历很好用a=['g','h']b=[

2020-07-15 16:52:32 154

原创 Python3.6及以后版本,格式化输出使用f‘a与b的和为{a+b}‘

int计算a=1b=2print(f'A+B={a+b}')结果A+B=3字符串显示name='xiaoming'print(f"他的名字是:{name}")结果他的名字是:xiaoming说明:{}内的会进行格式化输出,无论是int计算,还是字符串格式显示。相对于“{} {}”.format(“hello”, “world”)方式更加简化...

2020-07-15 16:02:31 209

原创 sklearn评价指标——回归模型评估及分类模型评估使用的库、ROC曲线理解

1、线性回归评价指标#MSE均方误差from sklearn.metrics import mean_squared_error#MAEXfrom sklearn.metrics import mean_absolute_error#R^2决定系数from sklearn.metrics import r2_score2、分类指标:混淆矩阵confusion_matrix(y_true, y_pred, labels=None, sample_weight=None):通过计算混淆矩

2020-07-08 15:20:05 356

原创 numpy数组如何通过逻辑判断(不相关的数组)取出目标元素,举例X=X[y!=0]

前提:是数组,即查询的type结果为numpy.ndarray。列表不行X和y赋值,X的行数需要同y元素个数相同X = np.arange(0,32).reshape(8,4)print(type(X))print(X)y=np.arange(0,8)print(y)结果<class 'numpy.ndarray'>[[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11] [12 13 14 15] [16 17 18 19] [20 2

2020-07-07 19:06:07 152

原创 统计学方法论-----线性回归

np.random.seed(3)#所有的随机数都是伪随机,种子相同,随机数就相同random_state 随机种子train_test_split(X,y,test_size=0.25,random_state=0),其中random_state用于打乱样本顺序,设置为0为了排除在调整超参数建立模型的时候,顺序对模型的影响线性回归的结果为了损失最小(∑(实际y-预测y))bais:偏置weight:权重...

2020-07-05 23:27:14 66

原创 统计学方法论2---------推断统计分析:通过样本推断总体

1、概述总体、个体、样本2、点估计和区间估计2.1、点估计2.2、区间估计置信度:总体参数有多大的概率位于置信区间置信区间:

2020-07-04 16:23:21 153

原创 详细说明如何在pycharm不联网的情况下,离线安装第三方库及依赖包(如sklearn)

单独

2020-07-04 10:42:03 1161

原创 统计学方法论1---------描述性统计分析

1、相关概念数理统计:以概率论为基础,研究大量随机现象的统计规律性。描述统计推断统计描述性统计:从总体数据中提取变量的主要信息(总和,均值等),从总体层面上,对数据进行统计性描述2、统计量2.1、频数与频率导入相关模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import load_irisimp

2020-07-02 14:44:14 168

转载 转载---详解seaborn中的kdeplot、rugplot、distplot与jointplot

https://www.cnblogs.com/feffery/p/11128113.html简介seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot、rugplot、distplot和jointplot,对其参数设置和具体用法进行详细介绍。...

2020-07-02 14:31:48 156

转载 pandas小技巧------------df.sample随机抽样

https://www.cnblogs.com/webRobot/p/11484648.html1、功能说明有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。函数名及功能DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]输入参数说明参数名称 参数说明 举例说明

2020-06-30 19:16:33 393

原创 numpy------数组的拼接concatenate

np.concatenate((a1,a2,…), axis=0)对于axis=0我自己方便记忆的理解,按照x轴拼接的意思是,x轴的刻度不变,那么在下方拼接就保证x轴刻度不变对于axis=1,按照y轴拼接,即y轴刻度不变,那么在右方拼接即可a=np.array([[1,2],[3,4]])b=np.array([[5,6],[7,8]])print(np.concatenate((a,b),axis=0))print(np.concatenate((a,b),axis=1))...

2020-06-30 18:35:17 50

原创 pandas小技巧---------.loc、.iloc、.at、.iat的区别,.get_value(x,y)也可以获取某个值

1、.loc与.iloc、.at与.iat区别结论:.loc与.iloc区别:.loc通过标签索引,不能使用位置索引;.iloc通过位置索引,不能通过标签索引.loc与.iloc相同:都可获取多行或多列或多行多列或单个值.at与.iat区别:同.loc与.iloc区别,.at通过标签获取单个值,.iat通过位置索引获取单个值.at与.iat相同:只能获取单个值,不能获取多个值。这也是与.loc和.iloc的区别换句话说,.loc与.iloc函数功能包含.at与.iat的函数功能,.at与.iat

2020-06-29 15:30:02 414

原创 python-------找出数据中交集元素的方法x.intersection(y, z ... )

intersection() 方法用于返回两个或更多集合中都包含的元素,即交集。x.intersection(y, z … )应用:不同维度优秀结果的交集,优秀中的优秀。(语文好数学也好的同学)x = {"apple", "banana", "cherry"}y = {"google", "runoob", "apple"} z = x.intersection(y) print(z)...

2020-06-22 16:41:06 253

原创 华三交换机如何配置端口镜像

#查看镜像组1dis mirroring-group 1#新建镜像组1mirroring-group 1 local#配置被监控端口,可配置多个。both代表进出都监控。inbound代表监控入,outbound代表监控出mirroring-group 1 mirroring-port Ten-GigabitEthernet 1/0/19 both#配置监控端口,一般该端口直连PC,直接打开wireshark抓取PC网口,就可以抓到上述被监控端口的包mirroring-group 1 moni

2020-06-18 10:29:35 975

原创 pandas小小项目3------如何简单清洗及分析APPstore数据

import numpy as npimport pandas as pd#读取数据,只分析前7列google_app=pd.read_csv('E:/cai-data/googleplaystore.csv',usecols=(0,1,2,3,4,5,6))print('简单浏览数据--------------')print(google_app.head())#print(google_app.describe())#查看各列的数据个数统计,看是否与缺失值。print(google_ap

2020-06-16 15:16:25 106

原创 Pandas小小项目2-----根据10日均线策略买卖股票的股票回溯分析

##########################################################阿里巴巴股票分析#########################################################import numpy as npimport pandas as pd#读取csv数据alibaba=pd.read_csv('E:/cai-data/BABA_stock.csv',index_col='date')#usecols代表加载哪些列

2020-06-10 10:44:07 141

原创 pandas小技巧--pandas.rolling()窗口函数

#Pandas代表series和DataFrame均可Pandas.rolling(window, min_periods=None, center=False)window:窗口大小min_periods:最少的不为空的数值,若不满足,该值为Nan。默认与窗口大小相等。如窗口大小为10,那么前9个数据的窗口值为NANcenter:是否以中间值最为窗口标准,默认值为False取窗口后可使用的函数:举例,取前10 的均值print(alibaba[0:20].rolling(10).

2020-06-06 10:28:50 948

原创 Pandas小技巧------Series.str.strip(),通过str属性可访问strip()方法

Series的str属性格式:XXX.str.strip()只有Series可用,即某列。print(alibaba.head())#对于索引列,是Series,Series有str属性alibaba.index=pd.DatetimeIndex(alibaba.index.str.strip("'"))print(alibaba.head())参考Pandas官方文档https://www.pypandas.cn/docs/user_guide/text.html#%E6%8B%8

2020-06-03 23:37:20 249

原创 pandas小项目练习--通过分组简单分析积分落户数据的年龄及分数分布

大部分内容都是取出需要的维度,处理出一个结果,然后可视化积分落户数据分析对于离散型数据,可分组后统计,排序等方式分析对于连续性数据,可使用cut分段后做统计import numpy as npimport matplotlib.pyplot as pltimport pandas as pdluohu_data = pd.read_csv('E:/bj_luohu.csv',index_col='id')luohu_data.describe()#取出需要的2列company_dat

2020-06-03 15:22:04 101

原创 pandas使用----用出生日期计算年龄,使用pd.to_datetime()和pd.Timedelta()

用生日数据计算年龄1.1 思路:1.2 代码1.3 说明1.3.1、pd.to_datetime('date')1.3.2、Timedelta函数1.1 思路:(当前时间-生日日期)/ 365天1.2 代码数据源格式:代码#将时间戳格式转换为日期格式print(pd.to_datetime(457348783))#将生日日期转换为统一格式print(pd.to_datetime(luohu_data['birthday'][1:3]))#使用Timedelta参数print(

2020-06-01 23:46:44 313

原创 初识Tableau-导入数据源、制作简单条形图

1、连接数据源打开desktop后,可连接Excel。右上角可选择实时或数据提取方式读取数据:实时,查询或其他操作时,都去读取源数据,对性能要求较高数据提取,提取数据,直接在tableau操作,后续也可手动同步数据源。建议使用2、数据的度量值可在将数据放到坐标轴后修改,如需要平均值3、蓝色框可交换行列,红色框选中整个视图选项,会铺满工作表4、使用平均线5、ctrl选中数据,使用智能推荐图形7、对于散点图,,颜色处选择不透明度,并添加边框颜色。右键工作表空白处,可添加趋势线辅助分

2020-05-26 19:21:30 255

原创 MySQL查询-----InnoDB和MyISAM索引结构的区别

一、索引类型普通索引唯一索引:值唯一,允许NULL主键索引:特殊的唯一索引,不允许NULL组合索引:多列索引全文索引空间索引概念:非聚簇索引:索引树的叶子节点存储数据的位置信息聚簇索引:索引树的叶子节点存储数据二、InnoDB与MyISAM索引结构的区别InnoDB引擎:按b+tree结构组织存放,叶子节点包含全部数据信息,辅助索引叶子节点存放的是主键。对于InnoDB的普通索引,会扫描2次,第一次由普通索引找到对应主键索引,第二次根据主键索引找到对应完整数据MyI

2020-05-10 23:22:49 53

原创 Pandas基础二重点 -----------分组聚合、agg函数、apply函数(可传参)

一、

2020-05-04 23:43:39 187

原创 pandas基础一 --------属性、缺失数据处理、时间序列
原力计划

二、DataFrame1、概念DataFrame数据表是一种2维数据结构。其中data、index、columns分别为数据、行索引和列索引2、创建使用字典创建(行索引由index决定,列索引由字典的键决定)dict={ 'Province': ['Guangdong', 'Beijing', 'Qinghai', 'Fujian'], 'pop': [1.3, 2.5...

2020-04-23 23:19:34 156

原创 python基础--导入模块方法及文件的基础操作

一、模块&包#pack为一个包(一个文件夹),first为其中的一个.py文件#导入包内模块import pack.first#导入包内模块并设置别名import pack.first as one#from导入包名,import导入模块from pack import first#from包名.模块名 import 功能代码,需保证当前模块没有导入模块的功能代码from...

2020-04-06 23:46:36 59

原创 python基础--捕获异常

作业1:不在同一路径的py如何导入作业2:查这个代码的意思是if name == “main”1、编辑器报错bug:编辑器报错、逻辑性bug认为某些代码会出错时,用try运行该代码,若出错,后续代码不会被执行,直接跳转到except语句块try: r = 10/0except ZerodivisionError as e: print('except:',e)else: ...

2020-04-05 16:08:09 25

原创 python基础--面向对象知识点概述

1、类、对象的概念类:事和物的一个分类,只是概念(比如飞机图纸)对象:具体到某一个事或物(我开过的那架飞机就是对象)2、类定义类,使用class类里面有属性(特征)和方法(行为)类名首字母必须大写class Teacher(object): #定义一个属性,如国籍 country = 'China' #方法,行为 def talk(self): ...

2020-04-05 15:07:26 41

原创 Python类属性、类方法与对象属性、对象方法的互相访问权限总结

类/对象的属性及方法访问权限总结:类属性:类可以访问类属性类可以修改类属性对象也可以访问类属性对象不能修改类属性(因为修改时相当于动态添加对象属性);对象属性:类不能访问对象属性对象可以访问对象属性对象可以修改对象属性...

2020-04-05 14:06:19 133 2

原创 hiveSQL优化技巧-待完善

一、去重效率优化尽量使用group by分组来去重,其效率高于distinct涉及统计数量时,可使用先group by在使用count(user_name),而不是直接count(distinct user_name)二、聚合技巧应用1、grouping sets,同时对不同类别分组如要用户的性别分布、城市分布、等级分布,以前的写法要分别写三个sql执行3次grouping sets可...

2020-04-01 16:14:03 27

转载 Python format 格式化函数

转菜鸟教程https://www.runoob.com/python/att-string-format.html格式化字符串的函数 str.format()基本语法是通过 {} 和 : 来代替以前的 %1、不限制参数“{} {}”.format(“hello”, “world”) # 不设置指定位置,按默认顺序‘hello world’“{0} {1}”.forma...

2020-03-29 16:14:01 24

原创 hiveSQL基本语句四----各种窗口函数

一、累计计算1、sum(…) over(…)

2020-03-01 23:56:23 47

原创 hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

一、(inner) join连接2个表,取出公共部分必须重命名on后连接条件键值唯一连接前注意去重,提高效率inner可省略select * from user_list_1 as a inner join user_list_2 as bon a.user_id=b.user_id;二、left /right join...

2020-02-08 23:00:44 292

原创 hiveSQL基本语句二------常用函数(时间戳、时间间隔、if、case)

from_unixtime()to_date()datediff()substr()ifcase when ... then

2020-02-06 14:04:05 402

原创 hiveSQL基本语句一:语句执行顺序from>where>group by>having>select>order by

group by语法

2020-02-04 23:50:46 473

原创 hive基础,创建表如何指定分区、如何设置永久严格模式

1、1.在hadoop的家目录下新建一个目录datas:mkdir datas2.通过xftp将数据源文件传到datas中3.“hadoop fs -mkdir /datas”4.“hadoop fs -chmod g+w /datas”5.“hadoop fs -put /home/hadoop/datas/* /datas”–1.创建kaikeba库create databas...

2020-02-02 22:44:14 203

原创 hadoop fs与hdfs dfs命令的区别

Hadoop fs:使用面最广,可以操作任何文件系统。例:将数据传入HDFS datas目录下 :hadoop fs -put /home/hadoop/datas/* /datashadoop dfs与hdfs dfs:只能操作HDFS文件系统相关(包括与LocalFS间的操作),前者已经Deprecated,一般使用后者。例:将本地数据加载到hive表中hdfs dfs -...

2020-02-02 21:24:00 355

数据分析理论流程AQI.xmind

数据分析思路流程图,包括获取数据、预处理数据(缺失值、异常值等)、数据分析、数据可视化,生成报告。。。。。

2020-07-11

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除