cc抱富-CSDN博客

原创 Hue如何上传本地excel到hive

1、处理本地数据将excel转为csv格式，并将列名删除，只保留数据2、在HDFS上创建文件夹，并上传本地数据3、在hive中建表CREATE EXTERNAL TABLE `abc.info`( `a` string COMMENT 'ID', `b` string COMMENT '名称', `c` string COMMENT '需求' )row format delimited fields terminated by ',' stored as textfi

2021-09-27 14:44:35 1436

原创 3GPP协议文档下载网址

3GPP查询/下载网址：https://www.3gpp.org/dynareport/SpecList.htm?release=Rel-15&tech=4&ts=1&tr=11、选择技术类型：5G/4G ,发行版本2、可通过检索关键字，查找涉及的协议3、知道目标协议编号的前提下，直接下载。如在主页选择23.501，点击目标版本即可完成下载...

2021-03-04 16:37:25 1523 1

原创统计分析方法论-----逻辑回归

1、逻辑回归模型1.1逻辑回归含义逻辑回归其实是一个分类算法，用于对样本数据进行分类的场景1.2、逻辑回归算法模型分类的依据为计算一个阈值，超过为A类，未超过为B类。逻辑回归的算法模型，与线性回归类似模型的理解：如2个参数即因变量x1和x2，那么阈值（决策边界的线）就是w1x1+w2x2+b=0这条直线（x1作为x轴，x2作为y轴，以此将平面分为2块，w1x1+w2x2+b结果即z大于0的部分为A类，z小于0的部分为B类）1.3、sigmoid函数理解sigmoid函数把z值（﹣

2020-12-17 17:41:01 800

原创 PYTHON中join的使用方法，应用于改变DataFrame某列的格式

PYTHON中join的使用方法：将序列中的元素以指定的字符连接生成一个新的字符串。可连接的序列包括：字符串，列表，集合，元祖，字典应用：对于DataFrame，取出某列后，利用apply函数分别对每行进行join1、连接的序列为列表如name列目前为列表方式存储，需要将每个列表中的名字使用空格间隔开，而不是逗号df1=pd.DataFrame({'sex':list('FFMFMMF'),'smoker':list('YNYYNYY'),'name':[["zho","ds"],["def","

2020-12-08 20:30:24 633 1

原创 python在列表和集合中查找数据的区别（时间复杂度）

列表数据有序，可重复，查找某个元素方式为逐个遍历；时间复杂度为列表的长度，即从第一个元素遍历到最后一个元素为止，O(len(list))集合数据无序，不可重复，查找某个元素方式为哈希。即某个元素通过哈希计算，他的位置永远固定（顺序却不按输入元素顺序，解释了为什么集合无序），查询时通过哈希即可一次找到该元素。时间复杂度为O(1)总结，对于大量数据，集合效率极高#1、创建空表方式a=list()b=set()#2、查找某个元素list1=['haha','heihei','neinei.

2020-11-01 18:59:44 3262

原创 tcpdump抓包通过IP或端口过滤抓包方法

1.通过ip过滤抓包方法tcpdump -i any -s 0 -w 100.pcap net 172.16.1.139 or 172.16.1.1592.通过端口过滤抓包方法tcpdump sctp or udp port 2123 or udp portrange 10000-11000 -i any -s 0 -w 01.pcap

2020-10-21 17:32:15 14271

原创利用LSTM长短期记忆算法分析猪肉价格未来走势

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom keras.models import Sequentialfrom keras.layers.core import Dense, Activation, Dropoutfrom keras.layers.recurrent import LSTMfrom sklearn.preprocessing import MinMaxScalerfrom

2020-09-06 23:39:32 1801 7

原创行业案例分析1------------经营分析报告方法

1、七问法5W2H：why（何因）、what（何事）、who（何人）、when（何时）、where（何地）、how（如何做）、how much（何价）

2020-08-30 22:20:33 1179

原创 2020年基于anaconda安装TensorFlow注意不要使用清华园的镜像了！！！

pip --default-timeout=1000000 install -U -i https://pypi.doubanio.com/simple/ --upgrade tensorflow-gpu==2.3.0 这样还可以防止超时，还是指定版本conda config --add channels https://pypi.doubanio.com/simple/ --upgrade tensorflow-gpu==2.3.0按enter（%%这句指定了清华镜像下载资源路径）再输入：co

2020-08-09 16:42:05 3029

原创数据挖掘算法之-----KNN算法

1、KNN概念KNN算法：K-Nearest Neighbor，K近邻算法，即K个最近的邻居（近朱者赤近墨者黑）KNN即可用于分类，也可用于回归分类预测时，使用K个邻居中，类别数量（或加权后）作为预测的结果回归预测时，使用K个邻居的均值（或加权后），最为预测结果2、超参数概念超参数：人为指定，超参数不同对模型效果影响很大2.1、K值K值大，容错性增加，敏感性降低，易导致欠拟合K值小，容错性降低，敏感性增加，易导致过拟合极端情况，使用整个样本数量作为K值，那么无论预测值在哪，结果都

2020-07-19 23:03:22 1326

原创 Python enumerate() 函数用于for循环

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。Python 2.3. 以上版本可用，2.6 添加 start 参数。遍历列表，并得到索引，索引值从0开始x=['d','e','f']for i,j in enumerate(x): print(i,j)结果0 d1 e2 f配合笛卡尔积使用for循环，相当于双层for循环笛卡尔积用于遍历很好用a=['g','h']b=[

2020-07-15 16:52:32 1048

原创 Python3.6及以后版本，格式化输出使用f‘a与b的和为{a+b}‘

int计算a=1b=2print(f'A+B={a+b}')结果A+B=3字符串显示name='xiaoming'print(f"他的名字是:{name}")结果他的名字是:xiaoming说明：{}内的会进行格式化输出，无论是int计算，还是字符串格式显示。相对于“{} {}”.format(“hello”, “world”)方式更加简化...

2020-07-15 16:02:31 1003

原创 sklearn评价指标——回归模型评估及分类模型评估使用的库、ROC曲线理解

1、线性回归评价指标#MSE均方误差from sklearn.metrics import mean_squared_error#MAEXfrom sklearn.metrics import mean_absolute_error#R^2决定系数from sklearn.metrics import r2_score2、分类指标：混淆矩阵confusion_matrix(y_true, y_pred, labels=None, sample_weight=None):通过计算混淆矩

2020-07-08 15:20:05 3613

原创 numpy数组如何通过逻辑判断（不相关的数组）取出目标元素，举例X=X[y!=0]

前提：是数组，即查询的type结果为numpy.ndarray。列表不行X和y赋值，X的行数需要同y元素个数相同X = np.arange(0,32).reshape(8,4)print(type(X))print(X)y=np.arange(0,8)print(y)结果<class 'numpy.ndarray'>[[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11] [12 13 14 15] [16 17 18 19] [20 2

2020-07-07 19:06:07 802

原创统计学方法论-----线性回归

np.random.seed(3)#所有的随机数都是伪随机，种子相同，随机数就相同random_state 随机种子train_test_split(X,y,test_size=0.25,random_state=0),其中random_state用于打乱样本顺序，设置为0为了排除在调整超参数建立模型的时候，顺序对模型的影响线性回归的结果为了损失最小（∑（实际y-预测y））bais：偏置weight：权重...

2020-07-05 23:27:14 1081

原创统计学方法论2---------推断统计分析：通过样本推断总体

1、概述总体、个体、样本2、点估计和区间估计2.1、点估计2.2、区间估计置信度：总体参数有多大的概率位于置信区间置信区间：

2020-07-04 16:23:21 8982 1

原创详细说明如何在pycharm不联网的情况下，离线安装第三方库及依赖包（如sklearn）

单独

2020-07-04 10:42:03 19724 7

原创统计学方法论1---------描述性统计分析

1、相关概念数理统计：以概率论为基础，研究大量随机现象的统计规律性。描述统计推断统计描述性统计：从总体数据中提取变量的主要信息（总和，均值等），从总体层面上，对数据进行统计性描述2、统计量2.1、频数与频率导入相关模块import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import load_irisimp

2020-07-02 14:44:14 1497

转载转载---详解seaborn中的kdeplot、rugplot、distplot与jointplot

https://www.cnblogs.com/feffery/p/11128113.html简介seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块，当我们想要探索单个或一对数据分布上的特征时，可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化，本文以jupyter notebook为编辑工具，针对seaborn中的kdeplot、rugplot、distplot和jointplot，对其参数设置和具体用法进行详细介绍。...

2020-07-02 14:31:48 421

转载 pandas小技巧------------df.sample随机抽样

https://www.cnblogs.com/webRobot/p/11484648.html1、功能说明有时候我们只需要数据集中的一部分，并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。函数名及功能DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]输入参数说明参数名称参数说明举例说明

2020-06-30 19:16:33 6463

原创 numpy------数组的拼接concatenate

np.concatenate((a1,a2,…), axis=0)对于axis=0我自己方便记忆的理解，按照x轴拼接的意思是，x轴的刻度不变，那么在下方拼接就保证x轴刻度不变对于axis=1，按照y轴拼接，即y轴刻度不变，那么在右方拼接即可a=np.array([[1,2],[3,4]])b=np.array([[5,6],[7,8]])print(np.concatenate((a,b),axis=0))print(np.concatenate((a,b),axis=1))...

2020-06-30 18:35:17 187

原创 pandas小技巧---------.loc、.iloc、.at、.iat的区别，.get_value(x,y)也可以获取某个值

1、.loc与.iloc、.at与.iat区别结论：.loc与.iloc区别：.loc通过标签索引，不能使用位置索引；.iloc通过位置索引，不能通过标签索引.loc与.iloc相同：都可获取多行或多列或多行多列或单个值.at与.iat区别：同.loc与.iloc区别，.at通过标签获取单个值，.iat通过位置索引获取单个值.at与.iat相同：只能获取单个值，不能获取多个值。这也是与.loc和.iloc的区别换句话说，.loc与.iloc函数功能包含.at与.iat的函数功能，.at与.iat

2020-06-29 15:30:02 3433

原创 python-------找出数据中交集元素的方法x.intersection(y, z ... )

intersection() 方法用于返回两个或更多集合中都包含的元素，即交集。x.intersection(y, z … )应用：不同维度优秀结果的交集，优秀中的优秀。（语文好数学也好的同学）x = {"apple", "banana", "cherry"}y = {"google", "runoob", "apple"} z = x.intersection(y) print(z)...

2020-06-22 16:41:06 1692

原创华三交换机如何配置端口镜像

#查看镜像组1dis mirroring-group 1#新建镜像组1mirroring-group 1 local#配置被监控端口，可配置多个。both代表进出都监控。inbound代表监控入，outbound代表监控出mirroring-group 1 mirroring-port Ten-GigabitEthernet 1/0/19 both#配置监控端口，一般该端口直连PC，直接打开wireshark抓取PC网口，就可以抓到上述被监控端口的包mirroring-group 1 moni

2020-06-18 10:29:35 20046

原创 pandas小小项目3------如何简单清洗及分析APPstore数据

import numpy as npimport pandas as pd#读取数据，只分析前7列google_app=pd.read_csv('E:/cai-data/googleplaystore.csv',usecols=(0,1,2,3,4,5,6))print('简单浏览数据--------------')print(google_app.head())#print(google_app.describe())#查看各列的数据个数统计，看是否与缺失值。print(google_ap

2020-06-16 15:16:25 450

原创 Pandas小小项目2-----根据10日均线策略买卖股票的股票回溯分析

##########################################################阿里巴巴股票分析#########################################################import numpy as npimport pandas as pd#读取csv数据alibaba=pd.read_csv('E:/cai-data/BABA_stock.csv',index_col='date')#usecols代表加载哪些列

2020-06-10 10:44:07 795

原创 pandas小技巧--pandas.rolling()窗口函数

#Pandas代表series和DataFrame均可Pandas.rolling(window, min_periods=None, center=False)window：窗口大小min_periods：最少的不为空的数值，若不满足，该值为Nan。默认与窗口大小相等。如窗口大小为10，那么前9个数据的窗口值为NANcenter：是否以中间值最为窗口标准，默认值为False取窗口后可使用的函数：举例，取前10 的均值print(alibaba[0:20].rolling(10).

2020-06-06 10:28:50 5501

原创 Pandas小技巧------Series.str.strip()，通过str属性可访问strip()方法

Series的str属性格式：XXX.str.strip()只有Series可用，即某列。print(alibaba.head())#对于索引列，是Series，Series有str属性alibaba.index=pd.DatetimeIndex(alibaba.index.str.strip("'"))print(alibaba.head())参考Pandas官方文档https://www.pypandas.cn/docs/user_guide/text.html#%E6%8B%8

2020-06-03 23:37:20 2787

原创 pandas小项目练习--通过分组简单分析积分落户数据的年龄及分数分布

大部分内容都是取出需要的维度，处理出一个结果，然后可视化积分落户数据分析对于离散型数据，可分组后统计，排序等方式分析对于连续性数据，可使用cut分段后做统计import numpy as npimport matplotlib.pyplot as pltimport pandas as pdluohu_data = pd.read_csv('E:/bj_luohu.csv',index_col='id')luohu_data.describe()#取出需要的2列company_dat

2020-06-03 15:22:04 837

原创 pandas使用----用出生日期计算年龄，使用pd.to_datetime()和pd.Timedelta()

用生日数据计算年龄1.1 思路：1.2 代码1.3 说明1.3.1、pd.to_datetime('date')1.3.2、Timedelta函数1.1 思路：（当前时间-生日日期）/ 365天1.2 代码数据源格式：代码#将时间戳格式转换为日期格式print(pd.to_datetime(457348783))#将生日日期转换为统一格式print(pd.to_datetime(luohu_data['birthday'][1:3]))#使用Timedelta参数print(

2020-06-01 23:46:44 4858 1

原创初识Tableau-导入数据源、制作简单条形图

1、连接数据源打开desktop后，可连接Excel。右上角可选择实时或数据提取方式读取数据：实时，查询或其他操作时，都去读取源数据，对性能要求较高数据提取，提取数据，直接在tableau操作，后续也可手动同步数据源。建议使用2、数据的度量值可在将数据放到坐标轴后修改，如需要平均值3、蓝色框可交换行列，红色框选中整个视图选项，会铺满工作表4、使用平均线5、ctrl选中数据，使用智能推荐图形7、对于散点图，，颜色处选择不透明度，并添加边框颜色。右键工作表空白处，可添加趋势线辅助分

2020-05-26 19:21:30 2647

原创 MySQL查询-----InnoDB和MyISAM索引结构的区别

一、索引类型普通索引唯一索引：值唯一，允许NULL主键索引：特殊的唯一索引，不允许NULL组合索引：多列索引全文索引空间索引概念：非聚簇索引：索引树的叶子节点存储数据的位置信息聚簇索引：索引树的叶子节点存储数据二、InnoDB与MyISAM索引结构的区别InnoDB引擎：按b+tree结构组织存放，叶子节点包含全部数据信息，辅助索引叶子节点存放的是主键。对于InnoDB的普通索引，会扫描2次，第一次由普通索引找到对应主键索引，第二次根据主键索引找到对应完整数据MyI

2020-05-10 23:22:49 259

原创 Pandas基础二重点 -----------分组聚合、agg函数、apply函数（可传参）

一、

2020-05-04 23:43:39 1705

原创 pandas基础一 --------属性、缺失数据处理、时间序列

二、DataFrame1、概念DataFrame数据表是一种2维数据结构。其中data、index、columns分别为数据、行索引和列索引2、创建使用字典创建(行索引由index决定，列索引由字典的键决定)dict={ 'Province': ['Guangdong', 'Beijing', 'Qinghai', 'Fujian'], 'pop': [1.3, 2.5...

2020-04-23 23:19:34 1025

原创 python基础--导入模块方法及文件的基础操作

一、模块&包#pack为一个包（一个文件夹），first为其中的一个.py文件#导入包内模块import pack.first#导入包内模块并设置别名import pack.first as one#from导入包名，import导入模块from pack import first#from包名.模块名 import 功能代码，需保证当前模块没有导入模块的功能代码from...

2020-04-06 23:46:36 433

原创 python基础--捕获异常

作业1：不在同一路径的py如何导入作业2：查这个代码的意思是if name == “main”1、编辑器报错bug:编辑器报错、逻辑性bug认为某些代码会出错时，用try运行该代码，若出错，后续代码不会被执行，直接跳转到except语句块try： r = 10/0except ZerodivisionError as e: print('except:',e)else: ...

2020-04-05 16:08:09 144

原创 python基础--面向对象知识点概述

1、类、对象的概念类：事和物的一个分类，只是概念（比如飞机图纸）对象：具体到某一个事或物（我开过的那架飞机就是对象）2、类定义类，使用class类里面有属性（特征）和方法（行为）类名首字母必须大写class Teacher(object): #定义一个属性，如国籍 country = 'China' #方法，行为 def talk(self): ...

2020-04-05 15:07:26 138

原创 Python类属性、类方法与对象属性、对象方法的互相访问权限总结

类/对象的属性及方法访问权限总结：类属性：类可以访问类属性类可以修改类属性对象也可以访问类属性对象不能修改类属性（因为修改时相当于动态添加对象属性）；对象属性：类不能访问对象属性对象可以访问对象属性对象可以修改对象属性...

2020-04-05 14:06:19 2261 3

原创 hiveSQL优化技巧-待完善

一、去重效率优化尽量使用group by分组来去重，其效率高于distinct涉及统计数量时，可使用先group by在使用count（user_name），而不是直接count（distinct user_name）二、聚合技巧应用1、grouping sets，同时对不同类别分组如要用户的性别分布、城市分布、等级分布,以前的写法要分别写三个sql执行3次grouping sets可...

2020-04-01 16:14:03 446

转载 Python format 格式化函数

转菜鸟教程https://www.runoob.com/python/att-string-format.html格式化字符串的函数 str.format()基本语法是通过 {} 和 : 来代替以前的 %1、不限制参数“{} {}”.format(“hello”, “world”) # 不设置指定位置，按默认顺序‘hello world’“{0} {1}”.forma...

2020-03-29 16:14:01 132

交换机镜像操作配置方法

数据分析理论流程AQI.xmind

空空如也