自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 kylin大数据查询分析平台,五个步骤:准备数据、维度建模、cube设计、cube构建、SQL查询

文章目录第一步准备数据第二步建模第三步cube设计第四步cube构建第五步SQL查询基于Hadoop的大数据分析平台,通过提前建立维度模型,指定维度和度量,提前把所有可能的操作准备好(cube),从而实现亚秒级SQL查询Kyligence Enterprise基本操作所有步骤都是为了最后一步,SQL查询第一步准备数据第二步建模建立星型模型或者雪花模型(目的:简单清晰连接结构,方便统计分析)第三步cube设计提前预计算。在完成模型建设和检测后,就可以进行cube的设计第四步cube

2021-11-28 15:53:53 1082

原创 Python 定义动态变量

利用 exec 动态定义变量 for n in range(1, 13): exec('month_{} = {}'.format(n, value or expression))for i in range(5): exec('var{} = {}'.format(i, i)) print(var0, var1, var2, var3 ,var4)var0, var1, var2 = 1,1,2for i in range(3): exec('var{}

2021-08-31 17:35:56 229

原创 如何根据分组平均值填充缺失值?

import pandas as pdimport numpy as npnp.random.seed(111)df = pd.DataFrame({'Title':np.random.choice(['Mr','Miss','Mrs'],20),'Age':np.random.randint(20,50,20)})df.loc[[5,9,10,11,12],['Age']]=np.nanave_age = df.groupby('Title').mean()['Age']df.loc[pd

2021-02-08 13:23:16 1865

原创 总结1

公司腾讯、字节、拼多多、新浪、贝壳找房、携程、顺丰科技、58同城、龙湖地产、建信金科、华为、百度、阿里、小米、京东、美团、中移信息,农行,工行,邮储、好未来提前批正式批欢聚集团(校园招聘)针对互联网公司没有分散精力在海投银行、国企、央企等总结业务型数据分析师技术型数据分析师方向明确全面准备复盘优化主要投数据分析岗位部分可能投数据挖掘、商业分析师、数据开发、算法工程师数据分析岗位要求统计学(概率论、数学、统计)代码能力(SQL、python)机器学习(算法、建模)业

2021-02-07 15:05:25 205

原创 Python多维数组拉平到一维

将不规则的Python多维数组拉平到一维,你学废了吗?https://blog.csdn.net/zhuxiao5/article/details/112914489添加链接描述

2021-01-24 22:48:13 540 1

原创 词云

# 词云图import jiebaimport pandas as pdimport stylecloudimport matplotlib.pyplot as pltimport numpy as npdf.shape#去除重复值df.drop_duplicates(inplace=True)#恢复索引df.index = range(df.shape[0])df.shapedf = df.drop_duplicates() #删除重复行df = df.dropna() #

2021-01-19 10:18:25 340 1

原创 代理爬虫

https://www.sohu.com/a/286177032_99987664https://blog.csdn.net/qq_38251616/article/details/81675871?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task# -*- coding: utf-8 -*-"""Created on Mon Dec 21 21:09

2020-12-21 22:13:25 101

原创 weibo

文章目录weibo数据时间处理情感+画图词云+s+wweibo数据import timeimport requestsfrom lxml import etreefrom multiprocessing.dummy import Poolfrom requests.exceptions import RequestExceptionimport openpyxlimport jsonimport refrom urllib import parseimport osfrom fake

2020-12-21 15:58:56 236 1

原创 RNN

相比与 图片、视频更多的数据是文本、语音这些会有时间先后顺序每个单词,用向量来表示【5,1】 5个词或5句话 用1维向量表示【5,100】 5个词或5句话 用100维向量表示【5,1000】 5个词或5句话 用1000维向量表示时间序列维度太高还有相近词的语义没有考虑用cos存取数据batch每次送多少进行运算序列模型类型语音识别情感分类机器翻译为什么在序列模型使用CNN等神经网络效果不好序列数据前后之间是有很强的关联性。如:曾经有一

2020-11-29 19:37:29 187

原创 卷积神经网络学习笔记

卷积神经网络特征提取卷积网络与传统网络的区别:传统的神经网络卷积神经网络可输入图片 三维 h x s x c整体架构卷积层进行特征提取,池化层进行特征压缩或者降维实际在计算中,要每个颜色通道分别去做计算,然后把每个通道的结果汇总到一起f 为卷积核f两个卷积核,卷积核大小为3然后,同样的方法…卷积需要做好多次步长比较小的时候,是慢慢的提取特征,信息比较丰富,但计算效率低一般选择 1边缘填充就是说边缘的部分 被重复计算的次数少,越靠近中间

2020-11-25 21:40:22 182 1

原创 百面机器学习|学习笔记|余弦距离

百面机器学习|学习笔记|第二章模型评估如何评估样本距离也是定义优化目标和训练方法的基础。在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是[-1,1],相同的两个向量之间的相似度为1。如果希望得到类似于距离的表示,将1减去余弦相似度即为余弦距离。因此,余弦距离的取值范围为[0,2],相同的两个向量余弦距离为0。对于两个向量A和B,其余弦相似度定义为两个向量夹角的余弦,关注的是向量之间的角度关系,并不关心它们的绝对大小,其取

2020-11-22 16:46:27 171

转载 深度学习学习笔记

神经网络的隐含层越多、模型参数越多,模型拟合能力更强,同时训练的难度也会增加。减少模型参数的方法有两种:逐层训练和权重共享。权重共享思路是现有深度学习的基础,它大大减少了模型的参数。深度学习并不需要很多的人工特征工程,利用其强大的建模能力来代替,整个训练的过程是端到端的过程(End-to-End);其次深度学习模型参数居多,训练过程中需要大量的训练样本。深度学习多层网络可以将数据进行多层映射,进行逐层学习。在卷积神经网络网络中底层网络可以学习到图像的底层信息,如边缘和角点,高层网络可以学习到图像的直接

2020-11-22 14:55:32 362

原创 pytorch安装

pip install torch==1.3.1 -f https://download.pytorch.org/whl/torch_stable.htmlpip install -i http://pypi.douban.com/simple --trusted-host pypi.douban.com torchvision==0.4.1

2020-11-21 14:05:32 74

原创 文本分类

# 在实际应用中还有一类问题比较重要,那就是文本分类。from sklearn.datasets import load_filesfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.linear_model import LogisticRegressionfrom sklearn.nai.

2020-11-20 20:30:39 143

原创 二分类实例

《机器学习python实战》(魏贞原)学习笔记# 二分类实例# 导入类库import numpy as npfrom matplotlib import pyplotfrom pandas import read_csvfrom pandas.plotting import scatter_matrixfrom pandas import set_optionfrom sklearn.preprocessing import StandardScalerfrom sklearn.model

2020-11-20 15:54:53 1004

原创 回归项目实例

《机器学习python实战》(魏贞原)学习笔记# 导入类库import numpy as npfrom numpy import arangefrom matplotlib import pyplotfrom pandas import read_csvfrom pandas import set_optionfrom pandas.plotting import scatter_matrixfrom sklearn.preprocessing import StandardScaler

2020-11-20 15:06:08 379 1

原创 深度学习(文本分析)情感分析

b站学习笔记情感分析将句子向量化ReLU激活函数计算速度更快,而且更有利于梯度信息的传递从而在一定程度上避免了梯度爆炸或者梯度消失的问题接下来,进行数据处理和数据训练的过程...

2020-11-12 19:37:40 958

原创 深度学习1——入门与共享单词预测

B站学习笔记深度学习神经网络是基于感知机的扩展,而DNN可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(Multi-Layer perceptron,MLP)。深度神经网络(Deep Neural Networks, 以下简称DNN)是深度学习的基础,深度神经网络就是一个大规模的特征提取器深度学习就是利用深度神经网络进行从数据中学习的技术输入大量的数据,深度神经网络就会自己调节权重来拟合数据中的模式卫生把一层一层的比

2020-11-11 20:21:22 205

原创 网站--学习、搜索、图片、视频

网站–学习、搜索、图片、视频三顿导航http://sandunppt.com/作图网站图表秀https://www.tubiaoxiu.com/兰图绘http://www.ldmap.net/图说https://tushuo.baidu.com/flourishhttps://app.flourish.studio/templatesFineBIhttps://www.finebi.com/processonhttps://www.processon.com/view

2020-09-15 22:40:14 191

原创 数据的合并和拼接

文章目录Merge方法1.1 内连接(交集)1.2 外连接(并集)1.3 左连接1.4 右连接1.5 基于多列的连接算法1.6 基于index的连接方法2. join方法3. concat方法3.1 series类型的拼接方法3.2 dataframe类型的拼接方法merge方法主要是基于两个dataframe的共同列进行合并join方法主要是基于两个dataframe的索引进行合并concat方法是对series或dataframe进行行拼接或列拼接Merge方法将两个dataframe连接

2020-09-15 10:49:04 1975

原创 读《机器学习Python实践》笔记

sklearn库:分类模型、回归模型、聚类模型、降维模型、模型优化、数据预处理一、第一个机器学习项目1.1 导入类库# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport scipyimport sklearnimport matplotlib.pyplot as pltfrom pandas.plotting import scatter_matrixfrom sklearn.model_selection

2020-09-15 10:45:52 164

原创 电商平台——爬虫

# -*- coding: utf-8 -*-"""菜坝网"""from selenium import webdriverfrom lxml import etreeimport threadingimport osfrom queue import Queueimport xlwtimport xlrdfrom xlutils.copy import copyclass ExcelUtils(object): #工具类的方法:不适用外部变量 #静态方法:直接可

2020-08-13 14:09:37 463

原创 本底趋势线模型

如图1.1所示,不同旅游成长阶段发生旅游危机事件对旅游业的发展冲击和影响程度不同,旅游发展主要有5个阶段,即成长期、成熟期、停滞期、衰退期、消亡期,通过光滑的曲线表示。带点曲线为实际数据统计线所表示的突发事件的作用程度。因大多突发事件为危机性事件,所以在图中多表现为凹形,所以突发事件旅游危机评价也就是统计线与本底趋势线的偏离分析。本底趋势线理论文章目录本底趋势线理论(1)数据修正(2)方程建立基于月指数的本底线模型该理论涵盖了对本底趋势线的概念界定、建模方法以及理论运用的方法等,能够有效区分旅游业发.

2020-08-07 17:14:32 3593

原创 数据分析_入坑之路

业务分析师产品经理运营师数据挖掘工程师数据科学家

2020-07-10 22:43:17 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除