自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

转载 听说这个最全的Mysql红宝书

目录第一章 数据库概述1.1、数据库的好处1.2、数据库的常见概念1.3、数据库的存储特点1.4、数据库的常见分类1.5、SQL语言的分类第二章 MySQL概述2...

2020-08-30 10:46:16 869

原创 Datawhale_动手数据分析_Part05_模型建立与评估

# 导包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Image%matplotlib inline# 设置画图字体plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] =

2020-08-28 11:40:02 299

原创 Datawhale_动手数据分析_Part04_数据可视化

2 第二章:数据可视化%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 导入CSV文件text = pd.read_csv(r'result.csv')text.head()2.7.1 任务一:跟着书本第九章,了解matplotlib,自己创建一个数据项,对其进行基本可视化2.7.2 任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。s

2020-08-26 11:49:52 284

原创 Datawhale_动手数据分析_Part03_数据重构

# 导入基本库import numpy as npimport pandas as pdtext = pd.read_csv('./data/train-left-up.csv')text.head()2.4 数据的合并2.4.1 任务一:将data文件夹里面的所有数据都载入,与之前的原始数据相比,观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/

2020-08-23 23:00:44 237

原创 Datawhale_动手数据分析_Part02_数据清洗及特征工程

第二章:数据清洗及特征处理2.1 缺失值观察与处理# 查看数据缺失值状态import numpy as npimport pandas as pddf = pd.read_csv('train.csv')df.head(3)# 方法一df.info()# 方法二df.isnull().sum()# 看详细的缺失值df[['Age','Cabin','Embarked']].head(3)2.1.2 任务二:对缺失值进行处理# 缺失值处理# 方法一df[df['Age']==

2020-08-21 22:34:15 219

原创 Datawhale_动手数据分析_Part01_数据加载

1 第一章:数据载入及初步观察1.1 载入数据1.1.1 任务一:导入numpy和pandas# 导包import pandas as pdimport numpy as np1.1.2 任务二:载入数据使用相对路径载入数据使用绝对路径载入数据# 相对路径df = pd.read_csv("./train.csv")# read_csv和read_table区别,后者是整行读取,需要自己设定分隔符df = pd.read_table("./train.csv", sep=','

2020-08-18 22:55:09 170

原创 python爬虫-爬取微博转评赞data信息

利用python简单爬取新浪微博(转发/评论/点赞/blog文本)信息import requestsimport jsonfrom jsonpath import jsonpathimport pprintimport pandas as pdimport timeimport randomdef get_content(url): response = requests.get(url, headers=headers) data = json.loads(respon

2020-08-05 23:49:36 1988

原创 天池赛-新闻文本分类-day02

数据读取import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)# 查看基本信息,label texttrain_df.head()句子长度分析%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))print(train_df['text_len'].d

2020-07-22 22:32:07 158

原创 天池赛-新闻文本分类-day01

赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票

2020-07-22 08:06:30 176

原创 大数据分析_Hive&HBase

Hive一 Hive基本概念1 Hive简介 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Cgh92nK-1594524836596)(/img/hive.jpg)]学习目标- 了解什么是Hive- 了解为什么使用Hive####1.1 什么是 HiveHive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。H

2020-07-12 11:34:46 643

原创 推荐系统_LFM算法实现

基于矩阵分解的CF算法实现:LFMLFM也就是前面提到的Funk SVD矩阵分解LFM原理解析LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户和物品,如下图:P矩阵是User-LF矩阵,即用户和隐含特征矩阵。LF有三个,表示共总有三个隐含特征。Q矩阵是LF-Item矩阵,即隐含特征和物品的矩阵R矩阵是User-Item矩阵,有P*Q得来能处理稀疏评分矩阵利用矩阵分解技术,将原始User-Item的评分矩阵(稠密/稀疏)分解为P和Q矩阵,然后利用P

2020-07-11 15:09:41 624

原创 大数据编程语言---Scala_01

scalascala介绍是一个编程语言 多范式 面向对象编程(OOP) 函数式编程(FP)scala是一个运行于jvm平台的语言 最终需要编译成字节码文件运行于jvmscala和java api无缝调用scala 优点语法灵活 优雅 简洁 速度快scala sdk的安装注意windows平台和linux平台之间的差异性windowsSCALA_HOME=C:\Work\soft\scala-2.11.8PATH=;%SCALA_HOME%\bin

2020-07-09 10:28:41 236

原创 python数据结构和算法知识点汇总

1.时间复杂度:算法A处理规模为n的问题示例所用时间T(n)=O(g(n))T(n)=O(g(n))T(n)=O(g(n)),记为T(n)T(n)T(n)2.最坏时间复杂度:算法完成工作最多需要多少基本操作3.程序=数据结构+算法4.算法是为了解决实际问题而设计的,数据结构是算法需要处理的问题的载体5.常用的数据运算:插入 删除 修改 查找 排序6.顺序表:将元素顺序地存放在一块连续的存储区里,元素间的顺序关系由它们的存储顺序 自然表示7.链表:将元素存放在通过链接构造起来的一系列存储块中8.

2020-06-27 14:30:42 751

原创 Python tensorflow基础教程总结

文章目录1. Tensorflow特点2. Tensoflow进阶2.1 图2.2 会话2.3 张量2.4 变量2.5 模型保存与加载2.6 自定义命令行参数1. Tensorflow特点真正的可移植性引入各种计算设备的支持包括CPU/GPU/TPU,以及能够很好运行在移动端,如安卓,ios等多语言支持Tensorflow有一个合理的c++使用界面,也有一个易用的python使用界面来构建和执行graphs,可以直接写python/c++程序高度的灵活性和效率Tensor

2020-05-23 12:12:18 1367

原创 循环神经网络RNN与LSTM

文章目录1. 神经网络与循环神经网络1.1 强大的功能1.2 层级结构1.3 多种RNN2. LSTM2.1 长时间依赖问题2.2 "记忆细胞"与状态3. LSTM变体3.1 GRU等1. 神经网络与循环神经网络背景: 传统神经网络包括CNN,输入和输出都是相互独立的图像上的猫和狗是分割开的,但有些任务,后续的输出和之前的内容是相关的“我是中国人,我的母语是__”RNN 引入"记忆"的概念循环2字来源于其中每个元素都执行相同的任务但是输出依赖于"输入"和"记忆"1.1 强大的

2020-05-19 22:59:03 589

原创 生成对抗网络GAN基本入门

文章目录1. 生成对抗网络(GAN)基础1.1 生成对抗网络1.2 数学原理1.3 简单模型1.4 生成对抗网络总结(优缺点)2. 深度GAN-DCGAN2.1 DCGAN(Deep Convolutional GAN)2.2 DCGAN模型研究2.3 特征研究2.4 DCGAN总结3. 条件GAN4. InfoGAN5. Wasserstein GAN6. 实例:图片生成器1. 生成对抗网络(GAN)基础1.1 生成对抗网络本质:图片生成器组成:D,判别网络 G,生成网络, Loss,判别

2020-05-18 11:27:47 779

原创 递归网络卷积网络结合(CNN+RNN)

文章目录1. CNN + RNNCNN卷积神经网络 RNN递归神经网络1.1 相同点:1.2 不同点:1.3 组合方式实现2. 图片标注2.1 问题描述:2.2 模型设计2.3 模型设计2.4 模型运行2.5 图片标注升级3. 视频行为识别3.1. CNN特征简单组合3.2. 3D版本CNN图像特征的前后关系没有很好的区别4. 图片/视频问答4.1 图片问答的意义4.2 方法流程1. CNN + RNNCNN卷积神经网络 RNN递归神经网络1.1 相同点:都是传统神经网络的扩展 空间和时间扩展前向

2020-05-17 11:43:46 2763

原创 浅谈卷积神经网络(CNN)

1. 链式反向梯度求导1.1 链式求导公式∂f∂x=∂f∂q∗∂q∂x \frac{\partial f}{\partial x}=\frac{\partial f}{\partial q}*\frac{\partial q}{\partial x} ∂x∂f​=∂q∂f​∗∂x∂q​1.2 链式求导公式实例计算顺序:从loss向输入传播导数存储:每层的导数进行存储,用于下一层导数的计算2. 卷积神经网络 - 卷积层2.1 卷积层(Concolutional Layer)2.2

2020-05-13 19:32:10 593

原创 深度学习(Deep Learning)入门必备基本概念

1. 神经网络(Neural Network)基础1.1 神经元(Neuron)神经元是神经网络的基本构成单位.在神经网络中,一个神经元接收信号作为神经元的输入,经过处理,将结果输出,输出的结果作为下一个神经元的输入,或者作为最终的输出.1.2 权重(weights)当信息作为输入传到神经元时,神经元会分配给每个信息一个相关权重,将输入的信息乘以相应的权重,就是该信息的输入开始时,神经元会初始化每个信息的权重,之后根据相应的反馈和模型训练和更新每个信息的权重被赋予高权重的信息是被神经元

2020-05-11 19:05:13 1176

原创 KNN算法小结

K近邻算法:nearest neighbors classificationk定义多少个邻居物以类聚,人以群分教会计算机根据‘邻居’分类,邻居:距离比较近距离公式:欧氏距离d=(x1−y1)2+(x2−y2)2+(x3−y3)2+……d = \sqrt{(x1 - y1)^2 + (x2 - y2)^2 + (x3 - y3)^2 + ……}d=(x1−y1)2+(x2−y2)2+(x3...

2020-05-04 14:51:38 227

原创 分别用python和java实现九九乘法表

1.java实现 for(int i=1;i<=9;i++){ for(int j=1;j<=i;j++){ System.out.print(i+"*"+j+"="+(i*j)+"\t"); }System.out.println();2.python实现for i in range(1,10): for j in range(1,i+1): print(...

2020-05-01 22:03:04 145

原创 隐马尔科夫模型HMM

2020-05-01 11:58:16 135

原创 LDA主题模型详解

2020-04-30 12:33:12 443

原创 python 机器学习sklearn中Pipeline用法

sklearn中Pipeline包的用法from sklearn.preprocessing import StandardScalerfrom sklearn.decomposition import PCAfrom sklearn.linear_model import LogisticRegressionfrom sklearn.pipeline import Pipeline""...

2020-04-29 22:57:31 877

原创 机器学习贝叶斯网络详解

2020-04-29 19:58:33 283

原创 EM算法高斯混合模型推导

2020-04-28 12:59:06 393

原创 机器学习聚类总结

2020-04-27 16:44:02 293

原创 支持向量机SVM之核函数

2020-04-26 21:38:08 223

原创 支持向量机SVM

1.支持向量机(support vector machine),SVM是面向数据的分类算法,目标是确定一个分类超平面,从而将数据分开。2.SVM分类:2.1线性可分支持向量机:硬间隔支持向量机2.2线性支持向量机:软间隔支持向量机2.3非线性支持向量机:核函数技巧和软间隔最大化3.超平面:wTx+b=0w^Tx+b=0wTx+b=04....

2020-04-25 23:01:23 164

原创 机器学习提升算法(XGBoost Anaboost GBGT)

1. 提升算法产生背景假设当前一定得到了m-1棵决策树,是否可以通过现有样本和决策树信息,对第m棵决策树的建立产生有益影响?各个决策树组成随机森林后,最后的投票过程是否在建立决策树时即确定呢?2. 提升的概念提升可以用于回归和分类问题,每一步产生一个弱预测模型(如决策树),并加权累加到总模型中,如果每一步的弱预测模型生成都是依据损失函数梯度方向,则称之为梯度提升梯度提升算法是献给一...

2020-04-24 20:28:16 806

原创 python机器学习决策树理论知识

决策树以信息熵为度量构造一颗熵值下降最快的数,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类1. 信息熵2. 条件熵在X发生的前提下,Y发生"新"带来的熵H(Y|X) = H(X,Y) - H(X)3. 相对熵两个随机变量之间的相对距离4. 互信息两个随机变量X,Y的互信息I(X,Y) = H(X) + H(Y) - H(X, Y)H(X|Y) &lt...

2020-04-23 18:06:22 259

原创 机器学习之回归模型

文章目录1. 线性回归1.1 高斯分布1.2 最大似然估计1.3 最小二乘法的本质2. 逻辑回归(Logistic)2.1 分类问题的首选算法3. Softmax回归3.1 目标函数4. 技术难点4.1 梯度下降算法4.2 最大似然估计4.3 特征选择1. 线性回归1.1 高斯分布1.2 最大似然估计1.3 最小二乘法的本质2. 逻辑回归(Logistic)2.1...

2020-04-21 15:14:10 260

原创 机器学习数据处理one-hot编码

1. 什么是one-hot编码采用N位状态寄存器来对N个状态进行编码, 每个状态都由他独立的寄存器位,并且在任意时候只有一位有效One-Hot编码是分类变量作为二进制向量的表示2. 为什么要one-hot编码在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间,所...

2020-04-20 15:42:55 638

原创 机器学习之PCA主成分分析

1. PCA简介主成分分析,通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫做主成分比如:学生成绩的好坏,一般来讲,数学成绩分布更离散,所以能作为主成分,像语文成绩拉不开分数,就不是主成分2. 数据降维假设三维空间中有一系列点,这些点分布在一个过原点的斜面上,如果你用自然坐标系x,y,z这三个轴来表示这组数据的话,需要使用三个维度,而事实上,这些点...

2020-04-20 15:37:08 747

原创 python统计是否有缺失值及缺失值个数

import pandas as pdimport numpy as npdf = pd.DataFrame({ 'a': [1.2, 2, 3, 4], 'b': list('abcd')})df.iat[0, 0] = np.nanprint(df.isnull().any()) # --每一列(行)是否有缺失值 axis = 1 默认print(df.isn...

2020-04-19 23:11:08 3242

原创 机器学习之矩阵和线性代数

文章目录1. 矩阵1.1 线性代数作用:SVD为例1.2 矩阵乘法/状态转移矩阵1.3 矩阵和向量组2. 特征值和特征向量2.1 对称阵, 正交阵, 正定阵2.2 数据白化2.3 正交基2.4 QR分解/LFM3. 矩阵求导3.1 向量对向量求导3.2 标量对向量求导3.3 标量对矩阵求导1. 矩阵1.1 线性代数作用:SVD为例1.2 矩阵乘法/状态转移矩阵1.3 矩阵和向量组...

2020-04-19 16:49:29 405

原创 python数学基础之概率论与数理统计

文章目录1. 概率论基础1.1 概率公式1.2 贝叶斯公式1.3 分布2. 统计量2.1 期望2.2 方差2.2 协方差2.2 相关系数3. 大数定理4. 中心极限定理5. 最大似然估计5.1 过拟合1. 概率论基础1.1 概率公式1.2 贝叶斯公式1.3 分布两点分布二项分布(伯努利分布)方法一:Taylor展开式泊松分布2. 统计...

2020-04-19 13:58:45 1096

原创 机器学习与数学分析

1.机器学习流程数据挖掘 → 数据清洗 → 特征工程 → 数据建模2. 导数导数就是曲线的斜率,是曲线变化快慢的反应二阶导数是斜率变化快慢的反应,表示曲线凹凸性3. Taylor公式4. 方向导数5. 梯度6. 概率论...

2020-04-18 21:14:52 185

原创 正则表达式_python中re模块

1. 什么是正则表达式正则表达式是对字符串操作的一种逻辑公式实现定义好的一些特定的字符,及这些特定的字符的组合组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑2. 常见匹配模式2.1 特殊代码代码说明.匹配除换行符以外的任意字符\w匹配字母或数字\s匹配任意的空白符\d匹配任意数字\b匹配单词的开始或结束...

2020-04-17 23:15:03 173

转载 python绘制k线图(matplotlib)

1.导入数据分析库import mpl_financeimport tushare as tsimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom matplotlib import tickerfrom matplotlib.pylab import date2numimport n...

2020-04-17 22:29:58 2926

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除